智谱AI推出AutoGLM智能体：输入指令即可模拟人类操作手机

智谱技术团队最近推出了一个基于GLM技术团队研究成果的新产品——AutoGLM，这是一个智能体（Agent），能够模拟人类操作手机，执行各种任务。AutoGLM的推出标志着人工智能在“Phone Use”领域的进步，使得AI的应用更加贴近人们的日常生活。

AutoGLM能够执行多种任务，如在微信上点赞并评论朋友圈、在淘宝上购买历史订单产品、在携程上预订酒店、在12306上购买火车票、在美团上点外卖等。它的应用场景不仅限于此，理论上，AutoGLM可以完成人类在可视化电子设备上能做的任何事，操作逻辑与人类类似，无需复杂的工作流搭建。

目前，用户可以通过安装“智谱清言”插件体验AutoGLM-Web，这是一个浏览器助手，能够模拟用户访问网页、点击网页，并在网站上自动完成高级检索、总结与内容生成。此外，AutoGLM也在安卓系统上开放了内测申请，并与荣耀等手机厂商开展了深度合作。

AutoGLM的技术基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”，解决了大模型智能体任务规划和动作执行中的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等问题。AutoGLM能够不断自我改进、持续稳定地提高自身性能，类似于人在成长过程中不断获取新技能。

在技术挑战方面，AutoGLM解决了“动作执行”不够精确和“任务规划”不够灵活的问题。它通过“基础智能体解耦合中间界面”设计，将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合，实现了智能体能力的极大提升。同时，AutoGLM采用了“自进化在线课程强化学习框架”，在真实在线环境中学习和提升大模型智能体在Web和Phone环境中的能力。

AutoGLM在Phone Use和Web Browser Use上都取得了显著的性能提升，并在AndroidLab评测基准上超越了GPT-4o和Claude-3.5-Sonnet的表现。在WebArena-Lite评测基准中，AutoGLM相对GPT-4o取得了约200%的性能提升，缩小了人类和大模型智能体在GUI操控上的成功率差距。

项目地址:https://xiao9905.github.io/AutoGLM