最近,Waymo 在自动驾驶领域又迈出了重要一步。这家公司一直以来都把与谷歌 DeepMind 的合作视作自己的竞争优势,如今,他们正在利用谷歌的多模态大型语言模型 Gemini 来提升其自动驾驶出租车的训练效果。

Waymo 发布了一篇新的研究论文,介绍了一种名为 EMMA 的 “端到端多模态模型”,该模型能够处理传感器数据,从而生成自动驾驶汽车的未来行驶轨迹。这意味着 Waymo 的无人驾驶车辆可以更智能地做出行驶决策,并能有效地避开障碍物。

这项新技术的重要性不仅在于它的创新,还因为它可能改变目前大多数大型语言模型的应用范围。Waymo 希望将 MLLM 视为其自动驾驶系统的 “一级公民”,这代表着未来的自动驾驶可能会与当前的聊天机器人或图像生成器有很大的不同。

在这篇论文中,Waymo 提到,传统的自动驾驶系统通常会为各种功能开发特定的 “模块”,包括感知、映射、预测和规划等。虽然这种方法在过去几年内取得了一些进展,但它的局限性也显而易见,尤其是在应对新的复杂环境时。Waymo 认为,像 Gemini 这样的 MLLM 可以解决这些问题,因为它们具备广泛的 “世界知识”,并且能够进行 “链式思维推理”,模拟人类的逻辑推理。

EMMA 模型被开发出来是为了帮助 Waymo 的自动驾驶出租车在复杂环境中进行导航。比如,当遇到动物或道路施工等情况时,EMMA 能够帮助无人驾驶汽车找到最佳行驶路径。不过,Waymo 也意识到 EMMA 还有一些局限性,例如目前无法处理来自激光雷达或雷达的3D 传感器输入。

Waymo 在这方面的研究还需要进一步深入,但他们希望这项成果能激励更多的研究,以应对目前存在的问题,推动自动驾驶技术的发展。

划重点:

🚗 Waymo 正在利用谷歌的 Gemini 模型开发新的自动驾驶出租车训练系统 EMMA,提升决策能力。

🌍 EMMA 模型能够处理复杂的传感器数据,帮助无人驾驶车辆智能避开障碍物。

🔍 虽然 EMMA 有潜力,但 Waymo 承认仍需进一步研究以克服其现有局限性。