Agent进化一小步:跳上解放双手的台阶

愤怒的蜗牛

Anthropic深夜发布重大更新:升级版Claude 3.5 Sonnet、新型号Claude 3.5 Haiku以及超级Agent:computer use。

新的Computer Use可能是迄今为止最先进的 AI Agent之一,它可以像人类一样使用计算机——查看屏幕、移动光标、点击和输入文本。通过 API,开发者可以让 Claude 将指令翻译成计算机指令,从而解放一些枯燥的重复性流程任务。

像人类一样感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务,是人工智能行业的下一个前沿发展方向,也是迈向通用人工智能(AGI)、超级智能(Super Intelligence)的必由之路。

Claude 3.5 Sonnet能力怎么样

编程能力显著提升,SWE-bench 测试从 33.4% 提升到 49.0%, 超过所有公开模型) ,在零售领域的 TAU-bench 测试中,其表现从 62.6% 提升到 69.2%,在难度更高的航空领域测试中也从 36.0% 提升至 46.0%。工具使用能力增强 ,价格和速度维持不变:

Agent进化一小步:跳上解放双手的台阶图片

Agent进化一小步:跳上解放双手的台阶图片

如何使用Anthropic 的 Computer use

Agent进化一小步:跳上解放双手的台阶

开发人员可以通过 Anthropic 的 API、 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台试用Computer Use 。

Agent进化一小步:跳上解放双手的台阶图片

基于Computer use的示例


Agent进化一小步:跳上解放双手的台阶

功能特性解析:

Claude 模型通过 API 实现了令人惊叹的像人一样操作电脑的能力。它能够观看屏幕截图,精准地移动光标,在需要的位置点击按钮,还能使用虚拟键盘输入文本。这种操作方式真正模拟了人类与计算机交互的方式,让 AI 助手不再局限于专门定制的工具,而是可以直接使用为人类设计的各类软件。

例如,在多个演示视频中,Claude 可以丝滑地执行打开软件、网页搜索、文本输入、编写代码、下载文件、debug、查找网页表格并填入信息等任务。

Agent进化一小步:跳上解放双手的台阶图片

实验阶段表现:

    目前,Anthropic 的 Computer use 功能处于实验阶段,确实存在一些不足之处。操作速度较慢,一些简单的操作如滚动、拖拽和缩放等,对Claude 来说仍具有相当的挑战性。

    在基准测试中,Claude 在 OSWorld 电脑操作评估测试中获得了 14.9% 的成绩,远超其他 AI 模型的 7.8% 最高分,但与人类的 70 - 75% 的水平相比仍有相当大的差距。当用户提供更多完成任务所需的步骤时,Claude 的得分可以提升到 22.0%。

开发者反馈与未来展望

官方提前发布这项功能,是为了获取开发者的反馈。随着开发者的积极参与,预计这一功能将随着时间逐渐改进。未来,Computer use 功能有望变得更快、更可靠、更容易使用。Anthropic 可能会进一步优化 Claude 的操作速度,减少错误的发生。

同时,可能会通过更多的训练和优化,让 Claude 在处理复杂任务时更加得心应手,逐渐接近人类的操作水平。例如,在处理一些需要快速响应的任务时,Claude 可能会更加高效地移动光标、点击按钮和输入文本。此外,随着技术的不断进步,可能会有更多的软件和工具被 Claude 熟练掌握,为用户提供更加丰富和便捷的服务。

如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。


您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,59人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码