Waymo 近日宣布了一项重大突破,开发了一种基于谷歌多模态大型语言模型 (MLLM) Gemini 的新训练模型,用于其自动驾驶出租车的开发。这种新模型被称为 EMMA(自动驾驶端到端多模态模型),它能够处理传感器数据以生成自动驾驶汽车的未来轨迹,帮助无人驾驶汽车决定去哪里以及如何避开障碍物。

EMMA 模型是自动驾驶领域的领军企业计划在其运营中使用 MLLM 的首批迹象之一,表明这些 LLM 可以摆脱目前作为聊天机器人、电子邮件管理器和图像生成器的用途,并在道路的全新环境中找到应用。

Waymo 的研究团队表示,像 Gemini 这样的 MLLM 为自动驾驶系统提供了有趣的解决方案,原因有二:聊天机器人是一个“通才”,经过从互联网上抓取的大量数据的训练,“可以提供超出普通驾驶日志所包含内容的丰富‘世界知识’”;它们通过“思路链推理”等技术展示了“卓越”的推理能力,通过将复杂任务分解为一系列逻辑步骤来模仿人类的推理。

Waymo 的 EMMA 模型在轨迹预测、物体检测和路图理解方面表现出色,但也存在局限性,例如无法整合来自激光雷达或雷达的3D 传感器输入,且每次只能处理少量图像帧。使用 MLLM 训练自动驾驶出租车也存在风险,例如模型可能会出现幻觉或无法完成简单任务

。因此,Waymo 表示还需要进行进一步的研究来缓解这些问题并进一步发展自动驾驶模型架构的最新技术。