Anthropic重磅升级Claude 3.5 系列模型，像人一样操作电脑！

人工智能公司 Anthropic 宣布Claude3.5系列模型的重磅升级，包括全新的 Claude3.5Sonnet 和 Claude3.5Haiku。升级后的版本号称可以让人工智能全面接管你的个人电脑，它能够执行多种基本任务，比如模拟输入键盘和鼠标点击，从而使用你电脑上安装的任何应用程序。

编码能力显著提升，超越OpenAI o1-preview 模型

新的 Claude3.5Sonnet 在各方面都有显著提升，尤其是在编码能力方面。它在 SWE-bench Verified 上的得分从33.4% 提升到49.0%，超越了所有公开可用的模型，包括 OpenAI 的 o1-preview 模型。

此外，它在 TAU-bench 上的表现也有所提升，特别是在零售和航空领域。这一切都在保持与前产品相同的价格和速度下实现。

客户的反馈显示，升级后的 Claude3.5Sonnet 在 AI 编码方面有了质的飞跃。例如，GitLab 测试了这个模型用于 DevSecOps 任务，发现其推理能力有了明显提升，且没有增加延迟。

Claude3.5Haiku 是Claude下一代最快的模型，以相同的成本和速度超越了 Claude3Opus，并在多个智能基准测试中表现出色，特别是在编码任务上。Claude3.5Haiku 的低延迟和更精准的指令跟随能力，使其非常适合用户界面产品和个性化体验的生成。

像人类一样操纵电脑

新推出的电脑使用功能是一个全新的尝试。官方表示这并不是为 Claude 开发特定的工具，而是教授它通用的计算机技能，让它能够使用各种标准工具和软件程序。开发者可以利用这一能力来自动化重复的流程、构和测试软件，以及进行开放性研究等。

当然，目前 Claude 在使用计算机时的能力仍然有待提高。一些简单的操作，比如滚动和拖动，目前对于 Claude 来说仍然存在挑战。为了确保安全，官方还开发了新的分类器，能够识别电脑使用是否造成了潜在的危害。

Anthropic 的首席科学官贾里德・卡普兰在接受采访时表示:“我们即将进入一个新时代，人工智能可以利用你作为个人所使用的所有工具来完成任务。” 这项更新标志着 Anthropic 在将商业 AI 模型从传统的聊天框架扩展为全面的 “AI 代理” 方面迈出了重要一步。

在一段演示中，Claude 被要求为朋友计划一次去金门大桥观看日出的旅行。AI 不仅打开了网页，还在谷歌上查找了一个合适的观景地点，并将行程添加到日历应用中。虽然这个表现令人印象深刻，但《连线》指出，它并没有提供一些额外的信息，比如如何到达目的地。

此外，在另一个演示中，Claude 被要求搭建一个简单的网站，结果它使用微软的 Visual Studio Code 成功创建了一个网站，并打开本地服务器进行测试。不过，在这个过程中，它遇到了一些小错误，但在提示下成功修复了代码。

Claude 3.5 Sonne通过从客户关系管理系统（CRM）中检索所需信息，自主完成一份供应商申请表，展示了其在不同软件平台上执行多步骤任务的能力。

升级后的Claude3.5Sonnet现在可供所有用户使用。从今天开始，开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机测试版进行构建。而新的 Claude3.5Haiku 将于本月晚些时候发布。

官方博客：https://www.anthropic.com/news/3-5-models-and-computer-use

划重点:
🌟 Claude3.5Sonnet 和 Haiku 模型重磅升级，编码能力显著提升。
💻 新推出的电脑使用功能允许 Claude 像人一样操作计算机，开启更多可能性。
🔒 使用 AI 助手带来了安全隐患，Anthropic 强调逐步观察和改进以确保安全性。