写点什么

被骂惨的“现象级”Manus,今天我们来扒一扒它的真实水平!

  • 2025-03-07
    北京
  • 本文字数:5342 字

    阅读完需:约 18 分钟

大小:2.59M时长:15:04
被骂惨的“现象级”Manus,今天我们来扒一扒它的真实水平!

昨天,一款由中国团队发布的 Agent 产品 Manus 在 AI 圈迅速走红,并登上热搜,许多人称其为真“打工人救星”。一段长达 4 分 17 秒的演示 demo 里,官方介绍,与传统 AI 助手不同,这款产品是一个真正自主的 AI Agent,不仅能提供各行业领域的建议或答案,还能直接交付完整的任务成果,写周报、做 PPT、简历筛选、甚至炒股票都不在话下。

 

在 Manus 官网,还能看到其一口气放出的 60 多个场景案例。此外,在 GAIA 基准测试(专门评估通用 AI 助手解决真实世界问题能力的权威测试)中,Manus 在所有三个难度级别上都取得新的最先进 (SOTA) 表现,成绩超越了 OpenAI 的 Deep Search。

 

爆火后,Manus 官网页面一度崩溃。由于 Manus 目前还没有公开上线,但对外开放了免费申请体验链接,AI 圈里掀起一波“全网求邀请码”的风潮。就邀请码一事,Manus 官方回应称,“服务器资源完全是按照行业里发一个 demo 的水平来准备的,根本不成想到会引起如此大的波澜。目前采取邀请码机制,是因为此刻服务器容量确实有限,不得已而为之,团队也熬夜搞了一整天了。”

 

国内某二手物品出售平台上,Manus 的邀请码标价最高至数十万级别。据了解,Manus 的邀请码不会绑定到单个账号,拿到邀请码后所生成的项目也不会与邀请码绑定,但设置了每日使用上限。也就是说,在使用上限内,一个邀请码可以被多人同时使用、异地使用、轮流使用。

 

 

Manus 怎么就火了?!

 

3 月 6 日下午,Manus AI 合伙人张涛在社交平台澄清道,他们从未开设任何付费获取邀请码的渠道,也从未投入任何市场推广预算。内测期间系统容量有限,将优先保障现有用户的核心体验,并逐步有序释放邀请码。

 

值得注意的是,与此前 DeepSeek 先在海外“出圈”的状况不同,目前在海外各社交平台上,还较少看到 AI 行业从业者们对 Manus 发表的公开评价。面壁智能联合创始人、首席科学家、清华大学计算机系副教授刘知远昨日在清华大学的大模型公开课上表示,DeepSeek 的热度当时是酝酿了一周才扩散开,而他不太理解为什么 Manus 会如此迅速地爆火,表示“让子弹飞一会再看”。

 

对于 Manus 迅速攀升的热度,数势科技 AI 负责人李飞向 InfoQ 表示,这背后主要由两层市场趋势推动。

 

首先,Deepseek 在国内大模型市场“烧”起来的火,让大家对于国内去做大模型及其应用更有信心了,目光也会关注到其衍生品上。所以在 Deepseek 之后的这一波,只要是和大模型相关的应用、做得还不错的,其实都会能够获得大量的关注。

 

其次,“天下苦 AI 应用久矣”,从去年开始到今年,大家一直在关注和期待大模型的应用前景。AI Agent 将迎来大规模爆发,在落地场景方面将重点会在数据分析、智能客服等企业办公、业务领域。

 

近期,热门的 Agent 产品不止 Manus 这一个。前不久,号称能顶一整个开发团队的多智能体开发平台 MGX (MetaGPT X),也在程序员圈子里小火了一把。就在刚刚,该团队又在 GitHub 上发布了一个开源版的 Manus,名为 OpenManus,支持网页浏览、文件操作、写代码等任务。据称,这一项目是几个 00 后工程师在三个小时内手搓完成的。紧随其后,CAMEL-AI 今天一早也发布了一个用于多智能体协作的开源框架 OWL。

 

OpenAI 昨日也宣布了一项关于 Agent 的通知,表示将对达到博士水平的 AI Agent 每月收费 2 万美元(约合 14.5 万元人民币),主要面向企业用户的高端需求,尤其是在金融、医疗、制造等数据密集型行业。

 

似乎现在几乎所有 AI 赛道的公司都在“盯着”Agent,那么这些智能体产品的效果和应用真有那么“神”吗?

 

是架构上的新突破,还是常规工程范式?

与此前爆火的 ChatGPT 或 DeepSeek 不同,Manus 目前并未对外披露技术细节。据 Manus 团队的 Hyan 在 Superlinear Academy 社区平台上发帖介绍,Manus 是全球第一款通用 Agent 产品,可以解决各类复杂多变的任务。其奉行这样的技术理念:“我们坚信并践行 less structure more intelligence 的哲学:当你的数据足够优质、模型足够强大、架构足够灵活、工程足够扎实,那么 computer use、deep research、coding agent 等概念就从产品特性变为了自然涌现的能力。”

 

从公开信息已知的是,Manus 采用多智能体(Multiple Agent)架构,运行方式与此前 Anthropic 发布的 Computer Use 类似,完全运行在独立虚拟机中,同时可以在虚拟环境中调用各类工具。在这个架构中,每个智能体基于独立的语言模型或强化学习模型,但 Manus 本身并未自研大模型。

 

李飞对 InfoQ 表示,Manus 跟 OpenAI 的 Operator 有异曲同工之处,但是它可以在虚拟环境里执行代码。换言之,Manus 的任务覆盖范围更多了,不仅可以在浏览器里执行任务,也可以去到云端虚拟机里去执行任务。

 

在技术层面上,李飞指出,目前从演示视频来看,尽管 Manus 覆盖的领域较广,可操作空间大了,任务的泛化性自然也较高,但整体的架构和理念并不算新。虽然工程实现难度是有的,但可能不是特别大。 Agent 本身是一个工程化架构的范式,Manus 团队做得更多可能是如何去保证任务之间的连通性,比如任务的连接、串联和回退等方面,保证系统的容错性。

 

“通用”Agent 现阶段不可能实现?

 

邀请码虽然“难得”,但也有一批业内人士先行体验了 Manus 的效果,我们也收到了一些用户反馈。某大厂的 AI 负责人对我们透露,“体验后感觉并没有被惊艳到。”

 

根据网上试用者反馈,Manus 目前能顺利执行的任务偏简单(表现与目前前沿大模型没有明显差异),对于稍微复杂的任务就需要耗费较长时间,甚至最后崩溃而无法完成,这也引发了部分人的算力焦虑。而且,由于各平台的登录制度,Manus 无法完成大家期待的“点外卖”、“订机票”等任务。

 

商汤科技高级 AI 产品经理王尚则在试用过 Manus 后给出了比较正向的反馈,对于其技术局限和可行性,他对 InfoQ 表示,最大的限制除了模型本身的能力边界外,目前还缺乏一套通用的 Agent 协议或接口,让 Agent 具备更强的自主实现能力。Manus 依赖于类似虚拟化浏览器的环境来执行各类任务,在浏览器的环境中模拟人类的操作,使用为人设计的用户界面。但短期内看不到 Agent 协议出现的可能性,毕竟我们对大模型的能力挖掘程度可能还不到 10%。

 

至于当前 Manus 是否做到了通用 Agent 的级别,李飞审慎地表示“应该还不能”。具体来说,Agent 底层的工具池越丰富,规划的能力越丰富,越会往通用去走,就像人一样懂得越多越容易成为一个通才。Agent 想要达到通用,一定是能够去完成用户所提到的所有任务,但是现实事件当中任务又会分为很多种,这里面有两个难点:第一是怎么去根据用户不同的个性化请求去找到任务执行路径,第二是 Agent 所具备的工具池是否足够丰富。

 

“任务路径节点越多,复杂度就越高,端到端完成的的成功率就会陡降。”在放出来的场景案例里,Manus 不管是交互、性能还是准确性都打磨出了不错的效果,其目前肯定是往通用 Agent 的路线去走的,但做到通用 Agent 的难度是比较大的,因为物理世界的复杂度远超我们的认知。

 

总的来看,Manus 在实际应用中或会遇到三方面的核心可行性问题:一是物理世界的高复杂度,二是任务流的连通性,再就是当前缺少通用 Agent 协议或接口。

 

Manus 团队也在最新公告中表示:大家目前看到的 Manus 还是一个襁褓中的小婴儿,像模型幻觉、交付物友好度、运行速度等方面都还有很大的提升空间。

 

不过,李飞认为 Manus 带给市场的反应是正向的。他认为,“Manus 的爆火是让我感到兴奋的,因为它让其实更多的人进一步地去了解什么是 Agent、 Agent 可以帮助我们做什么的以及怎么去做。”同时,李飞指出,目前 Manus 走 To C 是一个比较好的路径,可以通过 C 端先把市场热起来,而且 C 端用户对于工具的宽容度比较高的,但 B 端会更为严格,不确定它的能力上限能否满足企业应用。

 

但值得注意的是,哪怕作为“通用 Agent”,Manus 在大众中的使用门槛也是不低的。

 

据李飞介绍,在使用层面可能出现两种情况:领域专家不用它,因为当前通用 Agent 还没有达到能够解决领域难题的程度;一般使用者不知道该怎么去用,就像我们在去用搜索的时候,提问是一件很难的一件事情。

 

对此,李飞提出,当前很多 Agent 还是被动式的,需要用户以提问形式告诉它怎么做。但未来 Agent 产品一定会走向主动式,无需用户提问而是会根据用户的行为习惯以及历史消费记录或出行记录,主动推荐或者告知用户怎么做,这种形态对于使用者更为友好。

 

垂直 Agent 的“全能”困境

 

相较而言,MGX 则是一个侧重于编程开发领域的多智能体产品,与刚刚发布的开源版 OpenManus 出自同一团队之手。据称,其可以模拟人类软件开发流程,通过多个专业 AI agent 的协作,同时干团队领导、产品经理、架构师、工程师和数据分析师等角色的活儿。该团队是开发了一个多 Agent 系统来处理复杂的问题解决任务,包括问题重现、高效的代码生成和验证以及强大的补丁选择。这些 Agent 能够利用高级存储库级代码理解、搜索、编辑和调试功能,处理各种软件工程子任务。

 

根据官方介绍,MGX 是以 DeepWisdom 团队的开源多智能体编程框架 MetaGPT 为基础,由 GPT-4o 和 Claude 3.5-Sonnet 驱动。利用多 Agent 架构, MetaGPT 在 SWE-Bench Lite 上实现了 46.67% 的解决率。作为多 Agent 框架,MetaGPT 可以为 GPT 分配不同角色,以形成执行复杂任务的协作软件实体。也就是说,MetaGPT 想提供一支全能团队,包括老板、产品经理、架构师、项目经理、工程师、测试,完整复现一家软件公司的工作流程和标准操作流程(SOP)。

 

这比做代码补全的 GitHub Copilot 和任务自动化的 Devin 更为全面,因为 MGX 不仅想要独立完成整个项目的全生命周期管理,还想将“自主创立一家员工 100%由 AI 组成的公司”变得可能。然而,这一愿景面临极高的技术复杂度,要让 AI 理解并执行软件领域复杂的业务逻辑,挑战不容小觑。

 

JetBrains 中国 AI 解决方案专家孙涛对 InfoQ 表示,“直白的说,MGX 代替初、中级研发团队或设计、支持团队尚不现实,但是对于一个人参与实现和运营的独立项目或者对于新需求、新概念的验证,与多智能体协作的人机交互模式肯定会提升这些场景下的效率。”

 

此外,孙涛表示,虽然没有尝试过在大型项目上使用多智能体框架,但在简单项目上堆叠功能,多尝试几轮后,能明显体会到 token 消耗速度飞升,生成的内容质量不如最初几轮交互。多智能体之间相互沟通也容易将错误信息逐步放大,让最终结果远远偏离最初需求;上下文遗忘更是一个很明显的问题,受限于模型能力,智能体之间多轮互动后容易出现早期信息遗忘、消失,影响整体一致性。

 

在亲身体验 MGX 过后,孙涛还透露道,“我自己感觉还有一个问题,就是生成的项目文档、设计资料缺乏解释性,往往有很多人类难以理解的内容,更像是‘给机器看的文档’。或许这是 LLM 生成的一个限制。”

 

总的来说,MGX 现有的产品形态在完成明确定义的小型任务上表现超出预期,但面对大型、复杂、模糊定义或者需求动态变化的任务时,仍有诸多问题。智能体无法在既定的提示词内,处理复杂的原子化操作,人类面对复杂业务时的应对和学习能力,目前阶段的 LLM 还很难做到。

 

李飞则指出,“MetaGPT 强调的是协作,但其实又回到那个问题,涵盖的角色越多,复杂度就会越高。”在他看来, 当前 MetaGPT 有具体企业级应用或者商业化落地其实很难,实际的业务项目开发不仅是编程一个项目或游戏这么简单,其实是逐渐在走向业务上层的,智能体具备业务逻辑的理解挺难的。但他也表示,“这确实是一个应用方向,我们不能因为它当前的落地难度大就否定它。”

 

另值得一提的是,目前 MGX 在官网展示的案例项目成本几乎都不超 1 美元。对此孙涛表示,在实际商业化项目开发中不可能做到这样的低成本。根据他本人的体验经历,在多轮操作后,软件中添加一个细微的需求,如添加一个新列表、修改一些样式等,多智能体框架消耗的 token 量会成倍提升。放下 token 用量的问题不谈,这些由机器生成的内容,在真正投入生产使用前,也需要人工再次审阅确认。

 

将来是否会被大模型内化?

无论走通用 Agent 路线的 Manus 还是 MGX 等这类领域 Agent,其前提都是依托其他家的大模型作为核心引擎。那如果只是套壳大模型的产物,是否会被其依赖的核心技术“内化”掉?这些 Agent 产品本身还有独立存在价值吗?通用 Agent 在 LLM 的演进过程中有多大生存空间?

 

王尚对此表示,所有开放性的解决方案,最后都有可能被大模型内化,只是一个时间节点的问题。另外,大模型和 Agent 的边界也在逐渐模糊,Anthropic 据传也在计划从模型服务商发展为应用服务商或者方案服务商。随着大模型不断内化更多的能力,其对于 Agent 的吞并趋势也将越发显著。

 

“现阶段我们应该关注的,是想清楚我们希望 Agent 帮我们解决什么样的具体问题,从问题出发,去找答案、找路径、找空间。”

 

李飞则指出了一系列大模型内化不掉的 Agent 落地场景:比如数据访问,大模型可以去连接、收集互联网的数据,但很难处理企业内部的数据,大模型不可能去适配到每个企业内部数据结构和数据库;很多工具能力目前来看也是大模型内化不了的,大模型是应用的下限,Agent 才是应用的上限,只有连接足够多的业务场景才能够去打造一个可用、好用的产品应用。

 

他表示,“未来,我们需要考虑的是通用 Agent 的形态问题,即通用 Agent 是一个独立的产品吗?用户需要很多入口吗、是否会做统一?”对此他认为,未来电脑和现实交互的入口一定会逐渐地收敛和整合,那么在这种情况下通用 Agent 就不会是一个完全独立的产品,可能会以 MCP 的整合方式,融入到人机交互当中的某一个节点。

 

2025-03-07 19:5315345

评论

发布
暂无评论

CWE 4.6 和 OWASP TOP10(2021)

Tom(⊙o⊙)

【高并发】由InterruptedException异常引发的思考

冰河

Java 并发编程 多线程 高并发 异步编程

2018年世界杯德国竟然输给韩国?终于找到原因了!

Jackpop

《深入理解JVM虚拟机》读书笔记:第一章

Joseph295

“2021ISIG中国产业智能大会低代码峰会”即将开幕,钉钉宜搭叶周全受邀出席

一只大光圈

阿里巴巴 互联网 钉钉 低代码 钉钉宜搭

人脸检测实战:使用opencv加载深度学习模型实现人脸检测

AI浩

Windows 11再出杀手锏....

Jackpop

模块四作业:设计千万级学生系统的试卷存储方案

Geek_99eefd

模块四 「架构实战营」

清华元宇宙深度报告!理论框架产业真相一文看懂

CECBC

【死磕Java并发】-----J.U.C之AQS:同步状态的获取与释放

chenssy

11月日更 死磕 Java 死磕 Java 并发

图论算法:稳定婚姻问题,如何找到最适合自己的另一半

博文视点Broadview

在线文本行固定长度填充工具

入门小站

工具

23 K8S之Secret资源配置

穿过生命散发芬芳

k8s 11月日更

什么是元宇宙?为何要关注它?

CECBC

被Chrome坑惨了!

Jackpop

分析23个赛季NBA数据,我发现10条难以置信的信息!

Jackpop

SAP CRM Survey调查问卷的模型设计原理解析

汪子熙

中间件 CRM SAP C4C 11月日更

EF Core如何处理多对多关系

喵叔

11月日更

Flutter设置App的应用名字和应用logo图标的方法

坚果

flutter 11月日更

linux之strings命令

入门小站

Linux

[Pulsar] 消息生命历程(三)——客户端发送消息

Zike Yang

Apache Pulsar 11月日更

使用 ABAP 代码提交 SAP CRM Survey 调查问卷

汪子熙

CRM SAP abap 11月日更 问卷模型

netty系列之:在http2中使用framecodec

程序那些事

Java java 并发 程序那些事 11月日更

一文讲透如何用明道云构建物料需求计划系统

明道云

一个对标VSCode的IDE---Fleet

IT蜗壳-Tango

11月日更

华为,告别大陆军时代

脑极体

这次不怕撕坏了,区块链电子公告来了

CECBC

2021RSAC -- 网络韧性

Tom(⊙o⊙)

Golang Gin 框架之分组路由(五)

liuzhen007

11月日更

Prometheus Exporter (八)kube-state-metrics

耳东@Erdong

Kubernetes Prometheus exporter 11月日更 kube-state-metrics

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一起探索一下DefaultMQPullConsumer的实现原理及源码分析

码界西柚

阿里巴巴 RocketMQ 消息队列 11月日更 Apache RocketMQ

被骂惨的“现象级”Manus,今天我们来扒一扒它的真实水平!_生成式 AI_华卫_InfoQ精选文章