快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！

撰稿 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

现在的大型语言模型（LLM）就像牙膏一样鸡贼，你必须非常用力地挤压（正确地提示）才能得到适量的牙膏（答案）。

就像奥特曼形容现在的GPT4一样：“如果你问 GPT-4 大部分问题 10000 次，这 10000 次中可能有一次回答得很好，但它不一定知道是哪一次。”

也就是说，当你拿出大模型这个牙刷开始刷牙时，你的牙齿可能已经被蛀掉了。

这个问题，似乎也是一个无解的问题。但就在前天，黑马出现了！它直接把大语言模型比了下去，让大家看到了“超级产品”的希望！

“几乎以兔子的速度——比现有大型语言模型快10倍”，正如AI创业公司Rabbit的创始人Jesse Lyu（吕聘）在CES会上分享时所说。

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片

Jesse 给出了一个崭新的模型：大型动作模型（LAM），似乎可以解决这个问题。它可以通过挤牙膏的方式（通过文本或语音提示）迅速搞定一个大模型需要很久才能完成的任务。

1、一个小玩意，卖疯了

本周二，一款口袋大小的橙色小设备，Rabbit R1迅速走红网络，这款设备在正式发布后的24小时内售出了10,000台，售罄。

这小东西外观大小如同“小霸王”掌中机，触摸屏、旋转式摄像头、滚动轮。然而指令上，优先考虑直观的手势和语音命令，而不是键盘和菜单。具体参数不妨看下：

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片

Rabbit R1拥有2.88英寸的触摸屏，由强大的2.3GHz MediaTek处理器提供动力，配备4GB RAM和128GB的存储容量。

此外，它还配备了该公司自研的Rabbit OS操作系统，可以快速高效地导航所有应用程序，全程无需自己动手。

从体验上讲，Rabbit有两个让人惊艳叫好的能力，

首先，它能很好地在人和手机之间扮演一个非常智能的接口，无须切换应用程序和登录，只要说出你的需求，就能让它为你服务。不管是打车、订餐、发消息、听音乐，全都能通过一个界面来实现，并且售价非常亲民：199美元。

同时有趣的是，Rabbit还引入了升级的“teach mode”，只需要用户演示一遍工作流程，它就可以通过不同的界面进化，获得新技能。会上，Jesse演示了现场教Rabbit学习如何使用Midjourney作图。

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片

Jesse表示，该公司使命是创造最简单的计算机，简单到甚至不需要学习如何使用。而最好的实现方法就是，摆脱目前智能手机使用的基于应用程序的操作系统。相反，我们设想了一种以自然语言为中心的方法。”他补充说。

这背后是如何做到的？

2、自研大动作模型（LAM）不依赖GPT，速度快10倍

首先，Rabbit没有依赖OpenAI的模型，而是创建了自己的基础模型，他们称之为LAM（大型动作模型）。

Jesse说：“大型动作模型，我们称之为LAM，是一种新的基础模型，可以在计算机上理解和执行人类意图。”

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片

该模型背后基于神经符号系统的研究，“通过大型动作模型从根本上找到了解决应用程序、API或Agent面临的挑战的方法。”

具体什么原理呢？不同于LLM，LAM的建模方法是基于模仿，即学习演示，目的在于让AI系统像人类一样看待和操作应用程序。通过“观察和复刻”，它可以了解应用程序和服务是如何被用户日常使用的，而无须依赖于应用程序的编程接口（API）。

换言之，LAM已经观察学习了大多数互联网App的交互，并且随着用户提供更多的行为数据，能力也会进化得更强。

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！

这也是为什么，LAM会比LLM响应速度更快的原因！

因为一旦为它提供了演示，新合成的指令就可以直接在目标应用程序上运行，而不需要“观察”或“思考”的忙碌循环。LAM随着时间的推移从演示中积累知识，它深入了解了应用程序所暴露的界面的各个方面，并创建了应用程序所提供的底层服务的“概念蓝图”。LAM可以被视为一座桥梁，通过应用程序的界面将用户连接到这些服务。

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片

此外，“LAM可以学习任何软件的任何界面，无论它们在哪个平台上运行。简而言之，LLM理解你说的话，而LAM模型则将事情付诸行动。我们使用LAM将AI从语言转化为行动。”Jesse说。

与LLM相比，LAM的突破之处在于，它不仅超越了语言处理，还旨在根据文本指令在现实世界中执行操作。它接受指令并利用其语言理解力在数字环境中导航并完成任务，例如预订航班、订购食物或控制智能家居设备。

“大型语言模型，如ChatGPT，展示了AI理解自然语言的可能性；而我们的大型动作模型更进一步：它不仅根据人类输入生成文本，还代表用户生成行动以帮助我们完成任务。”Jesse提到。

LAM与Rabbit OS一起工作，该操作系统在安全的云上运行应用程序。Rabbit Hole是一个一体化的网络门户，旨在管理与Rabbit OS和配套设备的各种关系。例如，如果有人想听音乐，他们可以访问Rabbit Hole Web门户并登录到第三方应用程序如Spotify。

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片

具体分为三步：intention、inferface、interaction。

意图：Rabbit OS将首先理解你所说的话是什么意思。人类的意图是非常个人化的，有层次性的，可能是不完整的，可能会一时兴起而改变。rabbit OS利用其对用户的长期记忆，将用户的请求转化为LAM可以实时利用的可操作步骤和响应。

接口：然后，LAM了解如何日常使用应用程序和服务，而不依赖于应用程序编程接口（API）。LAM可以像人类一样学会在世界上观察和行动。

交互：LAM是会在云端的虚拟环境中完成这些任务，从预订航班或预订等基本任务到在Photoshop上编辑图像或流媒体音乐和电影等复杂任务。不需要复杂的本地设置，例如安装应用程序、Chrome插件或在命令行中键入代码。只需与rabbit操作系统对话即可。

3、大模型的短板：不擅长理解原始文本的App

Rabbit做了一项研究，显示大语言模型，即便强如GPT-4，在理解原始文本的应用程序方面，能力依旧不足。

Rabbit测量了在不同HTML快照中表示常见网络应用程序所需的Token数。即便用GPT-4，使用其现有的分词器，很难将原始文本应用程序的表示形式适应其上下文窗口。

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片

神经语言模型在设计上并不适合单独执行这些任务。尽管它们已经显示出理解和利用应用程序编程接口的能力，但用户界面与之非常不同，而且本质上不兼容文本。

这意味着任何操作用户界面的神经语言模型都需要进行预处理步骤，将应用程序和在其上执行的操作转换为原始文本、栅格化图像或某种标记序列的过渡表示。然后，将使用测试时间自适应提示模板、指令驱动或基于强化学习的微调的某种推理形式。

这就说明，让语言模型充当端到端（行动）推理器，目前还是一项难以出色完成的任务。

而通过利用符号算法，Rabbit做到了，可以实现可解释性、快速推理，并执行满足用户意图的行动。

据悉，受到机器学习和神经技术成功的启发，PL/FM社区最近在神经符号方法方面取得了重大进展：通过将神经技术（如LLM）和符号技术相结合，人们最终将两个世界的最佳部分结合在一起，使创建可扩展和可解释的学习代理成为可行的任务。

然而，迄今为止，还没有人将尖端的神经符号技术投入生产——LAM旨在开拓这一方向。

4、在网页导航任务中LAM性能一骑绝尘

Web环境，以及移动和桌面环境，都是LAM的适用场景。MiniWoB++算法尽管最近在模拟环境中展示的网页导航算法已经达到了人类水平的表现，但从实际效果上看，依然差强人意。在MindWeb基准数据集上测试时，最有效的方法仅在定位目标元素时达到70.8%的准确率。而LAM则可以做到89.6%！

Rabbit团队使用内部基准对LAM进行了初步评估。该数据集包括283个事件，其中包含从14个不同的实际网站收集的17个任务，包括Airbb、Google Flights、Shein、Spotify等。团队评估了纯神经方法和神经符号方法。结果显示，纯神经方法在定位目标元素方面表现出竞争力，而整合符号方法可显著提高准确性和延迟。

快GPT-4 10倍！这款卖疯的AI Agent产品，撼动大模型！图片