谷歌今日宣布推出其最新一代人工智能模型 Gemini 2.0,这是该公司迄今为止最强大的AI模型。这一重大升级不仅在性能上有显著提升,更标志着人工智能向代理时代迈进的重要一步。

根据谷歌和Alphabet首席执行官Sundar Pichai的介绍,Gemini 2.0在多模态能力和原生工具使用方面都实现了突破性进展。新模型不仅能够理解和处理文本、图像、视频、音频等多种形式的输入,还首次支持原生图像生成和文本转语音等多模态输出功能。

"如果说Gemini 1.0是关于组织和理解信息的,那么Gemini 2.0就是为了让信息更加有用,"Pichai表示。目前,该模型已经开始向开发者和可信测试人员开放使用。

技术创新与性能提升

谷歌DeepMind首席执行官Demis Hassabis透露,首批发布的是Gemini 2.0 Flash实验版本。这一版本在保持低延迟的同时,性能得到了显著提升。值得注意的是,2.0 Flash在关键基准测试中的表现甚至超过了1.5Pro,响应速度提高了一倍。

新模型运行在谷歌第六代TPU Trillium硬件平台上,这也是支持Gemini2.0百分之百训练和推理的基础设施。目前,这一平台已经向客户开放使用。

实际应用与产品整合

谷歌计划迅速将Gemini 2.0融入其产品生态系统。从即日起,全球Gemini用户可以通过网页版选择使用2.0Flash实验版本,移动应用版本也将很快推出。此外,谷歌搜索的AI概览功能也将整合2.0的高级推理能力,以解决更复杂的主题和多步骤问题。

值得关注的是,谷歌还推出了名为"Deep Research"的新功能,这项功能将在Gemini Advanced中提供,能够充当研究助手,探索复杂主题并自动生成报告。

探索AI代理的未来

在此次发布中,谷歌还展示了几个基于Gemini 2.0构建的研究原型项目:

Project Astra:这是一个通用AI助手原型,具备多语言对话能力,可以使用谷歌搜索、镜头和地图等工具,并具有长达10分钟的会话记忆功能。Project Mariner:这是一个浏览器交互原型,能够理解和推理网页上的各类信息,并通过Chrome扩展程序协助用户完成任务。在WebVoyager基准测试中,它实现了83.5%的最佳工作成果。Jules:这是一个面向开发者的AI代码代理,可以直接集成到GitHub工作流程中,协助解决问题和执行任务。安全性与负责任发展

在推进这些创新的同时,谷歌特别强调了安全性和负责任发展的重要性。公司采取了多项措施确保AI代理的安全使用:

与责任与安全委员会(RSC)合作,识别和了解潜在风险改进AI辅助红队方法,提升风险评估和缓解能力为多模态输入输出建立安全评估和训练机制在Project Mariner中加入防范恶意指令的保护机制未来展望

这次Gemini 2.0的发布被视为AI发展的重要里程碑。通过将先进的多模态能力与代理功能相结合,谷歌展示了其在推动AI技术发展方面的野心。随着这些新功能逐步整合到各个产品中,用户将能够体验到更智能、更实用的AI助手服务。

然而,谷歌也承认,AI代理技术仍处于早期阶段,需要继续通过与可信测试者的合作来收集反馈,不断改进和完善这项技术。公司承诺将继续以负责任的方式推进AI技术的发展,在探索新可能性的同时确保安全和道德标准。

详细信息请查看:https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents