快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!

愤怒的蜗牛

撰稿 | 言征 

出品 | 51CTO技术栈(微信号:blog51cto)


现在的大型语言模型(LLM)就像牙膏一样鸡贼,你必须非常用力地挤压(正确地提示)才能得到适量的牙膏(答案)。


就像奥特曼形容现在的GPT4一样:“如果你问 GPT-4 大部分问题 10000 次,这 10000 次中可能有一次回答得很好,但它不一定知道是哪一次。”


也就是说,当你拿出大模型这个牙刷开始刷牙时,你的牙齿可能已经被蛀掉了。


这个问题,似乎也是一个无解的问题。但就在前天,黑马出现了!它直接把大语言模型比了下去,让大家看到了“超级产品”的希望!


“几乎以兔子的速度——比现有大型语言模型快10倍”,正如AI创业公司Rabbit的创始人Jesse Lyu(吕聘)在CES会上分享时所说。 


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片



Jesse 给出了一个崭新的模型:大型动作模型(LAM),似乎可以解决这个问题。它可以通过挤牙膏的方式(通过文本或语音提示)迅速搞定一个大模型需要很久才能完成的任务。

1、一个小玩意,卖疯了


本周二,一款口袋大小的橙色小设备,Rabbit R1迅速走红网络,这款设备在正式发布后的24小时内售出了10,000台,售罄。


这小东西外观大小如同“小霸王”掌中机,触摸屏、旋转式摄像头、滚动轮。然而指令上,优先考虑直观的手势和语音命令,而不是键盘和菜单。具体参数不妨看下:


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片


Rabbit R1拥有2.88英寸的触摸屏,由强大的2.3GHz MediaTek处理器提供动力,配备4GB RAM和128GB的存储容量。


此外,它还配备了该公司自研的Rabbit OS操作系统,可以快速高效地导航所有应用程序,全程无需自己动手。


从体验上讲,Rabbit有两个让人惊艳叫好的能力,


首先,它能很好地在人和手机之间扮演一个非常智能的接口,无须切换应用程序和登录,只要说出你的需求,就能让它为你服务。不管是打车、订餐、发消息、听音乐,全都能通过一个界面来实现,并且售价非常亲民:199美元。


同时有趣的是,Rabbit还引入了升级的“teach mode”,只需要用户演示一遍工作流程,它就可以通过不同的界面进化,获得新技能。会上,Jesse演示了现场教Rabbit学习如何使用Midjourney作图。


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片

快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片


Jesse表示,该公司使命是创造最简单的计算机,简单到甚至不需要学习如何使用。而最好的实现方法就是,摆脱目前智能手机使用的基于应用程序的操作系统。相反,我们设想了一种以自然语言为中心的方法。”他补充说。


这背后是如何做到的? 

2、自研大动作模型(LAM)不依赖GPT,速度快10倍


首先,Rabbit没有依赖OpenAI的模型,而是创建了自己的基础模型,他们称之为LAM(大型动作模型)。


Jesse说:“大型动作模型,我们称之为LAM,是一种新的基础模型,可以在计算机上理解和执行人类意图。”


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片


该模型背后基于神经符号系统的研究,“通过大型动作模型从根本上找到了解决应用程序、API或Agent面临的挑战的方法。”


具体什么原理呢?不同于LLM,LAM的建模方法是基于模仿,即学习演示,目的在于让AI系统像人类一样看待和操作应用程序。通过“观察和复刻”,它可以了解应用程序和服务是如何被用户日常使用的,而无须依赖于应用程序的编程接口(API)。



换言之,LAM已经观察学习了大多数互联网App的交互,并且随着用户提供更多的行为数据,能力也会进化得更强。


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!


这也是为什么,LAM会比LLM响应速度更快的原因!


因为一旦为它提供了演示,新合成的指令就可以直接在目标应用程序上运行,而不需要“观察”或“思考”的忙碌循环。LAM随着时间的推移从演示中积累知识,它深入了解了应用程序所暴露的界面的各个方面,并创建了应用程序所提供的底层服务的“概念蓝图”。LAM可以被视为一座桥梁,通过应用程序的界面将用户连接到这些服务。


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片


此外,“LAM可以学习任何软件的任何界面,无论它们在哪个平台上运行。简而言之,LLM理解你说的话,而LAM模型则将事情付诸行动。我们使用LAM将AI从语言转化为行动。”Jesse说。


与LLM相比,LAM的突破之处在于,它不仅超越了语言处理,还旨在根据文本指令在现实世界中执行操作。它接受指令并利用其语言理解力在数字环境中导航并完成任务,例如预订航班、订购食物或控制智能家居设备。


“大型语言模型,如ChatGPT,展示了AI理解自然语言的可能性;而我们的大型动作模型更进一步:它不仅根据人类输入生成文本,还代表用户生成行动以帮助我们完成任务。”Jesse提到。


LAM与Rabbit OS一起工作,该操作系统在安全的云上运行应用程序。Rabbit Hole是一个一体化的网络门户,旨在管理与Rabbit OS和配套设备的各种关系。例如,如果有人想听音乐,他们可以访问Rabbit Hole Web门户并登录到第三方应用程序如Spotify。


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片


具体分为三步:intention、inferface、interaction。


意图:Rabbit OS将首先理解你所说的话是什么意思。人类的意图是非常个人化的,有层次性的,可能是不完整的,可能会一时兴起而改变。rabbit OS利用其对用户的长期记忆,将用户的请求转化为LAM可以实时利用的可操作步骤和响应。


接口:然后,LAM了解如何日常使用应用程序和服务,而不依赖于应用程序编程接口(API)。LAM可以像人类一样学会在世界上观察和行动。


交互:LAM是会在云端的虚拟环境中完成这些任务,从预订航班或预订等基本任务到在Photoshop上编辑图像或流媒体音乐和电影等复杂任务。不需要复杂的本地设置,例如安装应用程序、Chrome插件或在命令行中键入代码。只需与rabbit操作系统对话即可。 

3、大模型的短板:不擅长理解原始文本的App


Rabbit做了一项研究,显示大语言模型,即便强如GPT-4,在理解原始文本的应用程序方面,能力依旧不足。


Rabbit测量了在不同HTML快照中表示常见网络应用程序所需的Token数。即便用GPT-4,使用其现有的分词器,很难将原始文本应用程序的表示形式适应其上下文窗口。


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片


神经语言模型在设计上并不适合单独执行这些任务。尽管它们已经显示出理解和利用应用程序编程接口的能力,但用户界面与之非常不同,而且本质上不兼容文本。


这意味着任何操作用户界面的神经语言模型都需要进行预处理步骤,将应用程序和在其上执行的操作转换为原始文本、栅格化图像或某种标记序列的过渡表示。然后,将使用测试时间自适应提示模板、指令驱动或基于强化学习的微调的某种推理形式。


这就说明,让语言模型充当端到端(行动)推理器,目前还是一项难以出色完成的任务。


而通过利用符号算法,Rabbit做到了,可以实现可解释性、快速推理,并执行满足用户意图的行动。


据悉,受到机器学习和神经技术成功的启发,PL/FM社区最近在神经符号方法方面取得了重大进展:通过将神经技术(如LLM)和符号技术相结合,人们最终将两个世界的最佳部分结合在一起,使创建可扩展和可解释的学习代理成为可行的任务。


然而,迄今为止,还没有人将尖端的神经符号技术投入生产——LAM旨在开拓这一方向。

4、在网页导航任务中LAM性能一骑绝尘


Web环境,以及移动和桌面环境,都是LAM的适用场景。MiniWoB++算法尽管最近在模拟环境中展示的网页导航算法已经达到了人类水平的表现,但从实际效果上看,依然差强人意。在MindWeb基准数据集上测试时,最有效的方法仅在定位目标元素时达到70.8%的准确率。而LAM则可以做到89.6%!


Rabbit团队使用内部基准对LAM进行了初步评估。该数据集包括283个事件,其中包含从14个不同的实际网站收集的17个任务,包括Airbb、Google Flights、Shein、Spotify等。团队评估了纯神经方法和神经符号方法。结果显示,纯神经方法在定位目标元素方面表现出竞争力,而整合符号方法可显著提高准确性和延迟。 


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!图片


为了使AI能够表现得像人类一样,Rabbit构建了一个特殊的虚拟化环境集群来运行LAM,用于消费者应用程序。无论是在测试阶段还是生产阶段,它都提供了先进的安全性和可扩展性,进而快速构建出了LAM的原型。


5、为什么不干脆做成个App?Siri会跟进吗?


不过也有人表示,确实看起来不错,但为啥不干脆做成一个App呢?


快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!


这个问题很快被网友回答了:首先苹果或谷歌几乎不可能允许平台上架这样一个能随意授权调用其它应用的App,并且R1就是奔着App去冗余来的,自然会淘汰这种形式。更重要的是,R1的通用解决方案可以与不同服务进行交互,无论是网站、应用程序还是其他平台,而这正是它的独特之处。


另外的声音还有,觉得Siri和谷歌助手很快也会实现这些功能,它到底能占有多少市场?“人们为什么需要一个新设备去做原来设备已经能做的事情呢?”话虽如此,这位网友还是表示,迫不及待看看R2会是什么样。


这个问题Jesse坦言,Rabbit R1并不是要取代手机,只是希望提供一种更快、更直接、更通用集成设备的途径。毕竟基于App的交互界面已经存在了超过15年,而AI驱动的原生硬件才刚刚开始。


6、并不完美,回应质疑


Rabbit R1在云端运行,不具备边缘计算能力。同时,大多数科技巨头都在尝试将LLMs引入边缘计算领域,包括苹果、谷歌和三星。


Jesse声称,使用Rabbit OS,他的响应速度比大多数语音AI项目快10倍。“Rabbit在500毫秒内回答我的问题。”然而,Hacker News上的一位用户质疑这一说法:“推理在哪里运行?我不相信它在设备上。如果它在云端,那么为什么声称它低于500毫秒?”


Rabbit认为,终端用户手中的智能是可以在不需要强大的客户端计算能力的情况下实现的。通过仔细且安全地将大部分计算工作负载卸载到数据中心,我们为性能和成本优化创造了机会,使得尖端的交互式AI体验变得极其经济实惠。


虽然LAM在云端运行,但与其交互的硬件设备不需要昂贵和笨重的处理器,对环境非常友好,并且功耗很小。随着与LAM相关的工作负载不断整合,我们设想了一条通向专门构建的服务器端和边缘芯片的道路。


7、写在最后:一款不错的AI Agent


整体而言,对于Rabbit R1来说,魅力之处并不在于其硬件本身,它可能并不在最佳可用硬件之列。


但这是截止目前为止,让我们看到AI Agent 发挥最大效用的一次不错尝试,让大家看到它能够有效地采取行动,带来价值。


正如Hacker News上的另一位用户写道:“我认为硬件不是主要产品。我相信AI才是,但他们不想只是‘一个应用程序’;他们的目标是成为新型计算方式的第一个操作系统。因此,他们设计了一款新设备。”


值得一提的是,该产品的发布人,Jesse Lyu,其实在国内互联网创客圈内可谓人人熟悉,作为明星智能硬件公司渡鸦的创始人,吕骋,当年在大三时就创立了时间匹配的社交工具timeet,据说只用一分钟就拿下了百万融资。


2017年渡鸦被百度收购,26岁的吕骋加入百度出任智能家居硬件总经理,而一手推动完成这场收购的正是当时任百度集团总裁和首席运营官的陆奇。


参考链接:

https://assets.lotofcarrots.com/media/research/rabbit-lam.mp4

https://www.theverge.com/2024/1/10/24033498/rabbit-r1-sold-out-ces-ai

https://analyticsindiamag.com/lam-makes-llm-sweat/


您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,275人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码