昨天,一个叫「Manus」的通用 AI Agent 产品引起热议。它可以完成从文件处理、数据分析、代码编写到内容创作等多种任务,比如帮助用户生成旅行计划、分析股票数据、筛选简历或开发简单的网页游戏。
但是,由于「Manus」只发放了少量邀请码,能够体验到这款应用的人数目前还比较少。在电商平台上,邀请码的价格一度被炒到几万元,甚至还有人做起了帮助他人申请 Manus 邀请码的生意。
一系列行为,导致许多人无法直接体验到 Manus,这也为 Manus 招来了不小的质疑声音。
当然,大家最关心的还是 Manus 到底好不好用,这也是 Manus 的根本。
在拿到邀请码后,机器之心进行了一些测试,并将体验过程中感受到的 Manus 的优点和不足写了出来。我们不做「吹嘘」式的语言描述,只供大家参考。
此外,我们还注意到,一些行动力超强的 Agent 团队已经做出了 Manus 的开源复刻,包括 CAMEL AI 团队开源的 OWL 和 MetaGPT 团队开源的 OpenManus。
据机器之心观察,AI 学术 / 技术社区对于 Manus 的爆火保持相对冷静态度,尤其是 Agent 领域的专业人士。关于如何评价 Manus,读者可在了解相关信息后自行判断。
接下来,我们先分享一下 Manus 的实际使用体验。
Manus 效果如何?机器之心上手实测
首先来个基础的,「写个贪吃蛇小游戏」。是的,提示词就这么简单,看看 Manus 能否给我们带来惊喜。
按下发送键之后,Manus 一共执行了 5 分多钟,其中包含多步过程,包括创建贪吃蛇游戏文件、实现游戏基本机制、添加用户控制功能、开发计分系统、进行游戏功能测试、编写游戏使用说明文档、打包并交付游戏。
下载其输出的压缩包,看看效果如何。比较费解的是,Manus 这一次的输出结果是一个双重压缩包,也就是一个经过两次压缩的压缩包。
实测一下,是可玩的。Manus 确实实现了贪吃蛇游戏的基本逻辑和计分系统,不过看起来没有设定撞墙死亡判定,只有撞到自己时才会游戏结束。另外就是其网格线设计得过于明显 —— 但如果我们能在提示词中给出进一步的细节描述,效果应该会更好一些。
接下来,我们让 Manus 分析一下 Manus 话题的传播趋势,我们给出的提示词是:「检索网络,分析一下 Manus 话题的传播趋势,并写一份总结报告。」
这一次,Manus 思考的时间更长了,达到了 14 分钟,同样也分成 7 个步骤:搜索 Manus 话题的基础信息、分析 Twitter 平台上的 Manus 话题传播趋势、在其它社交媒体平台搜索 Manus 相关提及、整合趋势分析数据、撰写传播趋势总结报告。
其中每个步骤又包含若干小步骤,比如编写一个 Python 脚本来使用 Twitter API 等等。
并且在执行过程中,我们也能展开「Manus 的电脑」,查看其浏览网络和撰写报告的过程。
不过这一次,Manus 的表现并不好,比如在「分析 Twitter 平台上的 Manus 话题传播趋势」这一步,其未能成功使用 Twitter API,故而未能找到任何有用信息。它给出的解释是:「我注意到在 Twitter API 搜索中未找到 Manus 相关推文。这可能是因为 Manus 是一个较新的产品,或者搜索条件需要调整。我将继续在其他平台搜索 Manus 的提及情况,以全面分析其传播趋势。」考虑到 Manus 当前的热度,这个解释显然并不正确。
不管怎样,还是来看看报告结果吧。如下动图所示,输出结果包含三个 Markdown 文件,分别是趋势报告、趋势分析和背景信息。整体上看,虽然没有 Twitter 上的相关信息输入,但是通过分析和引述知乎文章以及一些媒体报道,内容还算充实详尽,其中甚至说明了 Manus 传播中自媒体先行的传播趋势以及引发的争议。
接下来试试看 Manus 能否帮助我们省钱:「预算 6000,给我配置一台可以剪视频、玩游戏的高性价比主机,把配置单发给我。」
这一次,Manus 规划的任务步骤达到了 8 步:研究当前 PC 组件市场、分析视频剪辑和游戏的硬件需求、分析视频剪辑和游戏的硬件需求、创建详细配置清单、验证组件兼容性、优化性价比、准备最终配置文档、发送配置给用户。
下面动图展示了 Manus 浏览网页查找相关信息的过程示例(原过程慢得多,这里有所提速):
18 分钟后,Manus 完成了这个任务,这是它给出的最终配置单。你觉得合理吗?
接下来,我们试了试让 Manus 玩 4399 小游戏。Manus 成功打开了网页,但却在登录页面受阻了。我们选择接管页面,微信登录,没有问题;但实名认证时却出现了状况 —— 我们无法在 Manus 内置的电脑中录入中文。以下视频展示了这次测试的全过程。
最后,我们尝试了让 Manus 根据我们提供的一个排版网页编写一个 Notepad++ 宏,方便我们的排版工作。为此,Manus 首先需要分析所提供的网页完成的功能,然后还要学习 Notepad++ 宏的语法。
提示词:把这个网页 https://www.dute.org/type-setting 的功能转写成一个 Notepad++ 的宏。
这一次,Manus 足足思考了 21 分钟,但结果却不尽如人意:在 Notepad++ 中的实测结果表明,Manus 编写的基本版和完整版都未能正确完成指定的任务,反而把我们的测试文本删除了。
这一次,Manus 失败了。
到这里,我们的每日用量限制就达到了极限,无法再进行更多测试了。
整体体验下来,可以简单总结一下 Manus 执行任务的过程:
首先,自然是分析问题。
接下来,Manus 会创建一个代办事项,其中包含主要步骤以及每个主要步骤下的各个细分任务;这通常是一个 todo.md 文件。
之后,Manus 会按照这个 todo.md 文件的事项一步步地执行。
最后,整理好结果并发送给用户。
以上配置电脑任务中已经执行到第 6 步的 todo.md 文件
至于效果,虽有失败,但可以说整体还是相当不错的。虽然用户的体感速度很慢,但考虑到如果让用户自己来完成同样的任务,可能会耗费更多时间,因此使用这种性能的智能体来辅助工作应该是个不错的选择。
开源复刻版 Manus
接下来,我们介绍两个 Manus 开源复刻项目。
「别抢 Manus 邀请码了,开源版已经在路上。」这是国内开源平台 CAMEL AI 今天一大早带来的好消息。
他们的 Manus 开源复刻版名叫「OWL」,在 GAIA Benchmark 上性能达到 57.7%,超越了 Huggingface 提出的 Open Deep Research 55.15% 的表现,成为开源界 GAIA 性能天花板。(GAIA 是一个用于评估通用人工智能助手能力的基准测试,Manus 也做了相关测试。)
GitHub:https://github.com/camel-ai/owl
为了让 OWL 进化成真正的全自动多 Agent 打工神器,CAMEL AI 还对 Manus 的技术路线做了一波野生 Reverse Engineering(逆向工程),并顺势启动了深度复刻计划。
在这个计划中,他们把 Manus 核心工作流拆成了 6 步:
该项目可以说是把技术框架、工作流程、核心能力全都公开,代码全在 GitHub 上。感兴趣的读者可以自行跟进。
针对 Manus,CAMEL 的发起人李国豪评价说,「我们在提出全球首个 ChatGPT Multi-agent 框架思想也将近两年了,看到 Monica 团队把 Multi-agent 技术落地成产品是非常惊喜的,Monica 团队的 Manus 系统设计其实非常巧妙,特别他们通过文件系统来实现 Context 管理和持久化、使用 Ubuntu 虚拟机的命令行来实现灵活的工具使用是非常值得学习工程思路,我们还在开源复现中!也非常期待他们承诺将要开源的 Post Training 模型!
除了 Web 和命令行的操控之外,我们非常有信心电脑、手机、机器人、车载等各种跨平台的操控会成为可能,那时候才是真正的赛博 workforce,因为 OS 端 Agent 的一个最大的优势是比较容易拿到 Verifiable 的奖励信号,未来强化学习 RL 可以训得飞起,也许会在一年内就会出现 DeepSeek R1 Zero 这样的 Aha moment 出现在 OS / Web Agent 领域!可惜我们资源有限还上不去 RL,非常期待大家一起来做开源探索!」
OpenManus 是除了 OWL 之外的另一个 Manus 开源复刻,允许用户无需邀请码创建自己的 AI 智能体。其使用方法包括设置新的 conda 环境、克隆仓库、安装依赖并在 config.toml 文件中配置 API 密钥(如 OpenAI 的 API)。用户可以通过终端输入想法,与智能体交互,智能体会使用 LLM API 处理并生成响应。
项目地址:https://github.com/mannaandpoem/OpenManus
其中,也有一些不同点。前文我们提到,Manus 是自己有个云端的电脑,而 OpenManus 则直接让 Agent 操作你的电脑。
MetaGPT 团队表示,当前项目仍在开发中,计划改进包括更好的规划、实时演示、重放功能、强化学习微调模型和全面基准测试。
最后想说的是,期待 Agent 在今年能给我们带来更多惊喜,成为切实可用的产品。
还没有评论,来说两句吧...