李飞飞团队提出机器训练新方法“数字表亲” 花钱更少效果更好

一直以来，我们都梦想着拥有像人类一样聪明的机器人，能帮我们做家务，能陪我们聊天，甚至能像钢铁侠的贾维斯一样无所不能。但是，理想很丰满，现实很骨感。教会机器人做事，可不是拍拍脑袋就能搞定的，那难度堪比教女朋友讲道理，费劲还不一定有效果。

为什么呢?因为现实世界太复杂了，充满各种意外和变化。你想想，连你教女朋友一个简单的道理都得费尽口舌，更何况是教一个没有人类思维的机器人呢?

传统的机器人训练方法，要么成本太高，需要在现实世界中反复试验，还可能造成安全隐患;要么效果太差，在模拟环境中训练出来的机器人，一到现实世界就抓瞎，跟个智障儿童似的。

为了解决这个问题，斯坦福大学的研究人员提出了一个天才的想法:数字表亲。

什么是数字表亲?

简单来说，数字表亲就是现实世界物体的虚拟替身。你可以把它理解成一个高仿版的数字模型，它跟现实物体长得差不多，功能也差不多，但不需要完全一致。

比如，一个现实世界中的橱柜，它的数字表亲也应该有类似的把手和抽屉布局，但材料和细节可以不一样。同样，一个现实世界的厨房，它的数字表亲也应该有类似的家具摆放，但具体的模型可以略有不同。

为什么要搞这个数字表亲呢?因为它有两个巨大的优势:

降低成本:数字表亲不需要像数字孪生那样精确地复制现实世界，所以制作起来更简单、更便宜。

增强鲁棒性:一个现实物体可以有多个数字表亲，这些表亲之间可以有细微的差异，这就相当于给机器人提供了更多样化的训练数据，让它学习应对各种变化。

如何自动生成数字表亲?

斯坦福大学的研究人员开发了一个名为ACDC的系统，可以自动从一张RGB图像生成数字表亲场景。这套系统简直是懒人福音，你只需要拍张照片，它就能帮你生成一个虚拟的训练场，让你的机器人可以在里面尽情玩耍。

ACDC系统的工作流程大致分为三步:

提取信息:从输入的RGB图像中提取出物体的掩膜、深度信息等。

匹配表亲:根据提取的信息，从数据库中找到与现实物体最相似的数字模型，并根据物体类别和特征调整模型的尺寸和方向。

生成场景:将匹配好的数字模型组合在一起，生成一个完整的虚拟场景，并进行物理上的调整，确保场景的稳定性和合理性。

数字表亲真的有用吗?

斯坦福大学的研究人员进行了一系列实验，结果表明，用数字表亲训练出来的机器人表现更出色:

模拟环境:在模拟环境中，用数字表亲训练的机器人，在完成开门、开抽屉、放碗等任务时，成功率更高，而且对不同型号的家具也更适应。相比之下，用数字孪生训练的机器人，一旦遇到没见过的家具，就容易犯傻。

现实世界:在现实世界中，用数字表亲训练的机器人，能够直接应用到现实场景中，无需额外的微调。而用数字孪生训练的机器人，则需要进行额外的调整才能适应现实世界的差异。

数字表亲技术的出现，为机器人学习打开了一扇新的大门。未来的机器人，将会更加智能、更加灵活，能够更好地适应复杂多变的现实世界。

当然，这项技术目前还有一些局限性，比如数据库中模型的数量和种类还不够丰富，对一些特殊情况的处理还不够完善。但随着技术的进步和数据的积累，这些问题都将逐步得到解决。

总而言之，数字表亲技术前景光明，它将推动机器人技术迈向一个新的高度。在不久的将来，我们或许真的能够拥有像人类一样聪明的机器人伙伴。

项目地址：https://digital-cousins.github.io/

论文地址：https://arxiv.org/pdf/2410.07408