
想象一下,坐在黑暗的电影院里,想知道你的大杯子里还剩多少苏打水。你不需要撬开瓶盖看一眼,而是拿起杯子摇晃一下,听听里面有多少冰在嘎嘎作响,这样你就能清楚地知道是否需要免费续杯。
把饮料放下,你心不在焉地怀疑扶手是不是真的木头做的。敲了几下,听到了空洞的回声,你决定它一定是塑料做的。
这种通过物体发出的声音振动来解读世界的能力是我们不假思索就能做到的。研究人员即将把这种能力引入机器人,以增强它们快速增长的感知能力。
杜克大学的一项新研究将于11月6日至9日在德国慕尼黑举行的机器人学习会议(CoRL 2024)上发表,该研究详细介绍了一个名为SonicSense的系统,该系统允许机器人以以前仅限于人类的方式与周围环境进行互动。
“今天的机器人主要依靠视觉来解读世界,”该论文的第一作者、杜克大学机械工程与材料科学教授陈伯元实验室的一年级博士生刘嘉勋解释说。“我们希望创造一种解决方案,可以处理日常生活中发现的复杂多样的物体,让机器人拥有更丰富的‘感受’和理解世界的能力。”
SonicSense的特点是一个有四个手指的机器人手,每个手指的指尖都嵌入了一个接触式麦克风。这些传感器检测并记录机器人轻拍、抓握或摇晃物体时产生的振动。由于麦克风与物体接触,它可以让机器人忽略周围的噪音。
基于相互作用和检测到的信号,SonicSense提取频率特征,并利用之前的知识,结合人工智能的最新进展,找出物体的材料和3D形状。如果这是一个系统从未见过的对象,系统可能需要20次不同的交互才能得出结论。但如果它是数据库中已经存在的对象,它可以在短短四分钟内正确识别它。
“SonicSense为机器人提供了一种听和感觉的新方式,就像人类一样,它可以改变当前机器人感知和与物体互动的方式,”Chen说,他还有来自电气、计算机工程和计算机科学专业的约会和学生。“虽然视觉是必不可少的,但声音增加了多层次的信息,可以揭示眼睛可能忽略的东西。”
在论文和演示中,Chen和他的实验室展示了SonicSense实现的许多功能。通过转动或摇动装满骰子的盒子,它可以数出里面的骰子数量和形状。通过对一瓶水做同样的事情,它可以知道里面含有多少液体。通过敲击物体的外部,就像人类在黑暗中探索物体一样,它可以建立物体形状的3D重建,并确定它是由什么材料制成的。
虽然SonicSense并不是第一次尝试使用这种方法,但它更进一步,比以前的工作表现更好,它使用四根手指而不是一根手指,基于触摸的麦克风可以屏蔽环境噪音和先进的人工智能技术。这种设置允许系统识别由多种材料组成的物体,这些材料具有复杂的几何形状,透明或反射表面,以及对基于视觉的系统具有挑战性的材料。
刘说:“虽然大多数数据集是在受控的实验室环境中收集的,或者是在人工干预的情况下收集的,但我们需要我们的机器人在开放的实验室环境中独立地与物体互动。”“很难在模拟中复制这种复杂程度。控制数据和真实世界数据之间的差距是至关重要的,而SonicSense通过使机器人能够直接与物理世界的多样化、混乱的现实进行交互,弥合了这一差距。”
这些能力使SonicSense成为训练机器人在动态、非结构化环境中感知物体的坚实基础。它的成本也是如此;使用与音乐家用来录制吉他声音相同的接触式麦克风,3D打印和其他商业上可用的组件使建造成本仅超过200美元。
展望未来,该小组正在努力提高系统与多个对象交互的能力。通过集成目标跟踪算法,机器人将能够处理动态、混乱的环境,使它们在现实世界的任务中更接近人类的适应性。
另一个关键的发展在于机器人手本身的设计。“这仅仅是个开始。在未来,我们设想将SonicSense应用于更先进的具有灵巧操作技能的机器人手中,使机器人能够执行需要细致入微的触觉的任务。”“我们很高兴探索如何进一步开发这项技术,以整合多种感官模式,如压力和温度,以实现更复杂的相互作用。”
这项工作得到了陆军研究实验室STRONG计划(W911NF2320182, W911NF2220113)和DARPA的FoundSci计划(HR00112490372)和TIAMAT (HR00112490419)的支持。
引用本文:“SonicSense:来自手声振动的物体感知”,刘家勋,陈伯元。机器人学习会议,2024。ArXiv版本可在:2406.17932v2和通用机器人实验室网站上获得。