别小看它！英伟达HOVER神经网络：在虚拟训练中仅用50分钟就能控制机器人

的研究团队宣布了一项令人兴奋的进展，他们开发了一种名为 HOVER（人形多功能控制器）的新型神经网络。这个神经网络拥有150万参数，专门用于协调人形机器人的运动和操作。

NVIDIA 的高级研究经理 Jim Fan 表示:“并不是所有基础模型都需要庞大。我们训练的这个1.5M 参数的神经网络，旨在控制人形机器人的身体。” 他进一步解释，HOVER 能够捕捉到人类运动中的潜意识过程，这样一来，机器人就可以在没有繁琐编程的情况下执行复杂任务。他提到，“人类在行走、保持平衡，以及灵活操控四肢时，都需要大量的潜意识处理。”

在训练过程中，HOVER 使用了 NVIDIA 的 Isaac 模拟平台，这个平台能够加速物理仿真，速度是现实时间的10000倍。

Jim Fan 透露，这个模型在虚拟环境中经过了一年的训练，实际上只花费了大约50分钟的真实时间，这在单个 GPU 上完成。他表示，这种高效的训练使得神经网络能够顺利转移到现实应用中，而不需要进行微调。

HOVER 具备响应多种高层运动指令的能力，包括使用 XR 设备（如苹果的 Vision Pro）进行头部和手部姿势的控制，或通过动作捕捉和 RGB 相机获取全身姿势，甚至可以从外骨骼获取关节角度，或从操纵杆获取根速度命令。Fan 强调，HOVER 为控制不同输入设备的机器人提供了一个统一的接口，从而便利了用于训练的遥操作数据的收集。

此外，HOVER 还与上游的视觉 - 语言 - 动作模型集成，使得运动指令能够高频率地转化为低级别的马达信号。这个模型与任何可以在 Isaac 中模拟的人形机器人兼容，使得用户可以轻松地赋予机器人生命。

早在今年年初，NVIDIA 还宣布了一个名为 GR00T 的项目，这是一个通用基础模型，专为人形机器人设计。GR00T（Generalist Robot00Technology）所驱动的机器人，能够理解自然语言，并通过观察动作来模仿人类的动作，这让它们能够快速学习协调、灵活性及其他在现实世界中有效互动所需的技能。

论文网址:https://arxiv.org/pdf/2410.21229

划重点:
- 🤖 NVIDIA 推出 HOVER，一个150万参数的神经网络，旨在控制人形机器人的运动与操作。
- ⏳ HOVER 在虚拟环境中训练了一年，实际训练时间仅为50分钟，提升了现实应用的效率。
- 🎮 HOVER 支持多种高层运动指令，能与不同输入设备协同工作，为机器人控制提供统一接口。