Agent进化一小步：跳上解放双手的台阶

Anthropic深夜发布重大更新：升级版Claude 3.5 Sonnet、新型号Claude 3.5 Haiku以及超级Agent：computer use。

新的Computer Use可能是迄今为止最先进的 AI Agent之一，它可以像人类一样使用计算机——查看屏幕、移动光标、点击和输入文本。通过 API，开发者可以让 Claude 将指令翻译成计算机指令，从而解放一些枯燥的重复性流程任务。

像人类一样感知环境、规划任务、执行动作（如使用工具/软件），最终完成特定任务，是人工智能行业的下一个前沿发展方向，也是迈向通用人工智能（AGI）、超级智能（Super Intelligence）的必由之路。

Claude 3.5 Sonnet能力怎么样

编程能力显著提升，SWE-bench 测试从 33.4% 提升到 49.0%, 超过所有公开模型) ，在零售领域的 TAU-bench 测试中，其表现从 62.6% 提升到 69.2%，在难度更高的航空领域测试中也从 36.0% 提升至 46.0%。工具使用能力增强，价格和速度维持不变：

Agent进化一小步：跳上解放双手的台阶图片

如何使用Anthropic 的 Computer use

Agent进化一小步：跳上解放双手的台阶

开发人员可以通过 Anthropic 的 API、 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台试用Computer Use 。

Agent进化一小步：跳上解放双手的台阶图片

基于Computer use的示例

Agent进化一小步：跳上解放双手的台阶

功能特性解析：

Claude 模型通过 API 实现了令人惊叹的像人一样操作电脑的能力。它能够观看屏幕截图，精准地移动光标，在需要的位置点击按钮，还能使用虚拟键盘输入文本。这种操作方式真正模拟了人类与计算机交互的方式，让 AI 助手不再局限于专门定制的工具，而是可以直接使用为人类设计的各类软件。

例如，在多个演示视频中，Claude 可以丝滑地执行打开软件、网页搜索、文本输入、编写代码、下载文件、debug、查找网页表格并填入信息等任务。

Agent进化一小步：跳上解放双手的台阶图片

实验阶段表现：

目前，Anthropic 的 Computer use 功能处于实验阶段，确实存在一些不足之处。操作速度较慢，一些简单的操作如滚动、拖拽和缩放等，对Claude 来说仍具有相当的挑战性。

在基准测试中，Claude 在 OSWorld 电脑操作评估测试中获得了 14.9% 的成绩，远超其他 AI 模型的 7.8% 最高分，但与人类的 70 - 75% 的水平相比仍有相当大的差距。当用户提供更多完成任务所需的步骤时，Claude 的得分可以提升到 22.0%。

开发者反馈与未来展望

官方提前发布这项功能，是为了获取开发者的反馈。随着开发者的积极参与，预计这一功能将随着时间逐渐改进。未来，Computer use 功能有望变得更快、更可靠、更容易使用。Anthropic 可能会进一步优化 Claude 的操作速度，减少错误的发生。

同时，可能会通过更多的训练和优化，让 Claude 在处理复杂任务时更加得心应手，逐渐接近人类的操作水平。例如，在处理一些需要快速响应的任务时，Claude 可能会更加高效地移动光标、点击按钮和输入文本。此外，随着技术的不断进步，可能会有更多的软件和工具被 Claude 熟练掌握，为用户提供更加丰富和便捷的服务。

如果对内容有什么疑问和建议可以私信和留言，也可以添加我加入大模型交流群，一起讨论大模型在创作、RAG和agent中的应用。