Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载

愤怒的蜗牛

又整新活了!Anthropic 家的大模型都能用电脑了!


在本周二的重磅更新里,我们看到了OpenAI劲敌——Anthropic大招不断。


全新升级的 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku,不仅性能强悍。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


Claude 3.5 Sonnet更是达到了在编程界横着走的水平,不仅各项指标都干翻了GPT-4o,连o1都不放过!


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


Sonnet在SWE基准验证中的得分高于所有可用模型,竟然包括了OpenAI o1-preview等推理模型和专门的代理系统。 


难怪Claude直接表示,编程这一块就是我们的统治区了。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


不过,最神奇的功能还是 Claude 操作电脑的能力了。


Claude 不仅会填写表格、编写程序、遇到问题知道查查谷歌,还会很搞笑地偷个懒——关掉了录屏按钮,偷偷浏览黄石公园照片放空大脑!这是在演谁上班?



Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载



一、AI用电脑,都能做些啥事?


AI Chatbot的对话能力越来越难以满足我们对AI的期待。


对于行动能力的提升逐渐变成了一个主攻方向。


无论是o1开发者日演示的AI订茶歇甜点,还是各家AI手机都在卷的AI助手预定餐厅、帮买咖啡等等,都体现了这个势头。


但 Claude 还能通过用电脑狠狠惊艳我们一把,就是因为这个 Agent 似乎更通用,留下的想象空间也更大。


因为所到底,我们在办公室的大多数工作时间,都是用电脑完成各种不同的任务而已。因此,Claude的新功能不是简单的生活助手,而是有着AGI雏形的强大。


虽然 Claude 和计算机交互的能力才刚刚起步,但我们还是能从一个个小示例里感叹一句:未来可期!


1.自动填写表格


填写表格真的是高频的工作任务。


在这个范例里,Claude需要填写来自Ant Equipment Co.的供应商请求表,方法是参考已有的表格或者自行搜索。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


左侧更新了AI的思维链情况,Claude发现在给定的表格中没有相应信息,于是开始调用搜索。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


在切换到CRM系统中进行了搜索之后,Claude顺利填好了表格。



Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载





2.做个日程攻略


在这个示例里,我们的朋友要来旧金山了,我们想让AI帮我们做一个到金门大桥看日出的攻略,Claude是否能完成细节的要求吗?


我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


Claude二话没说,立即开始通过谷歌搜索,尝试先找个看日出的最佳地点。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


Claude在旅游攻略里成功找到了方案,然后开始着手时间方面的安排。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


既然要考虑开车能否赶得及,Claude立马开始调用地图应用,来判断需要为交通预留的时间。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


还很聪明地查看了当日的日出时间,并且把出发时间安排在我们的日程表里,真的是执行力拉满。

3.Claude 学习电脑之路才刚刚起步


不过,虽然示例看起来很美好,但目前还是留有很多的bug。


首先,Claude执行任务的准确率不够,例如编程到一半去看图了等等,千奇百怪的开小差行为。


其次,Claude学习电脑使用的道路还有很长,目前也就掌握了点击,连滚动、缩放、拖拽这样小学计算机第一课的内容,AI还存在一些操作障碍。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


最后,Claude的速度还比较慢,而且AI用着电脑的时候,你就得停下来手头的任务等着,没法和它并行工作。


也因此,小红书AI博主@AI Dance评价说,Anthropic变得鸡贼了……也开始和OpenAI一样给大家发期货了。


Claude 3.5超预期炸场!编程能力超o1,像人类一样操作电脑,开启Agent新时代!学会摸鱼,编程时偷偷浏览黄石公园图片! 转载图片


不过,Claude将其功能在API上提前上线了。


毕竟,作为AI用户,大家尝鲜的时候都不会太苛刻。抓到Claude在编程时偷偷摸鱼,和AI花费几个小时填完一份表格都同样有趣。


您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,46人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码