写点什么

微软推出 Magentic-One,一个通用的多智能体代理系统

作者:Daniel Dominguez

  • 2024-12-24
    北京
  • 本文字数:1286 字

    阅读完需:约 4 分钟

微软推出 Magentic-One,一个通用的多智能体代理系统

微软宣布推出 Magentic-One,这是一个新的通用多智能体代理系统,旨在处理涉及 Web 和基于文件环境的开放式任务。该系统旨在协助处理跨不同领域的复杂、多步骤任务,以提高软件开发、数据分析和网页导航等活动的效率。


Magentic-One 采用由协调器(Orchestrator)智能体代理领导的多智能体代理架构,协调四个专门的智能体代理:WebSurfer,处理基于浏览器的任务,如导航网站和与在线内容交互;FileSurfer,管理与文件相关的操作,包括读取文档和导航目录;Coder,编写和分析代码以创建解决方案;以及 ComputerTerminal,运行代码并执行系统级操作。


该系统采用模块化设计原则,使智能体代理能够独立运行并适应新任务,而无需对系统进行重大的更改。Magentic-One 基于 Microsoft AutoGen(一个用于开发多智能体代理系统的开源框架)构建,与模型无关,并且与包括 GPT-4o 在内的不同大语言模型(LLM)兼容。


Magentic-One 使用 AutoGenBench(一种用于智能体代理系统评估的工具)在 GAIA、AssistantBench 和 WebArena 等基准上进行了测试。结果显示,与其他最先进的解决方案相比,该系统的准确性具有相当的竞争力,证明了该系统管理复杂工作流程方面的能力。


微软强调了与智能体代理系统相关的潜在风险,例如意外操作和系统滥用。在开发过程中,发现了诸如重复登录失败和尝试寻求外部人工协助等情况。为了降低此类风险,该系统包括了安全部署指南、红队演习和人工监督建议。


Magentic-One 的发布引发了人工智能社区的兴趣。大语言模型(LLM)专家 Elvis Saravia 在 X 上评论道:


虽然现在还为时尚早,但这种建立通用智能体代理系统的新趋势值得关注。此外,其他当前基于 LLM 的应用程序,如 RAG,也将受益于这种建立在多个专用智能体代理之上的系统。


而用户 Alexian_Theory 在 reddit 上分享道:


网页浏览的方法很有趣。它会对正在运行的无头浏览器进行快照,将图像传递给支持视觉的 LLM,然后决定下一步应该如何进行以完成任务。


Magentic-One 及其评估工具 AutoGenBench 的代码现已作为开源资源提供。微软鼓励与研究人员和开发人员合作,改进智能体代理人工智能系统,重点关注安全性、操作的可逆性,并最大限度地降低实际应用中的风险。相关的技术细节和实现资源,请参阅官方文档和 GitHub 存储库。


多智能体代理编排系统的开发正成为整个人工智能行业的核心焦点。几家大型的公司都在通过自己的方法来编排专业的智能体代理,为这一趋势做出贡献。AWS 推出了 Multi-Agent Orchestrator,IBM 正在开发 Bee Agent,OpenAI 开发了 Swarm。这些系统中的每一个都旨在编排多个智能体代理,以有效地解决复杂的多步骤任务,这表明人们越来越重视模块化和协作式人工智能架构。

作者介绍


Daniel Dominguez 是 AWS 合作伙伴网络公司 SamXLabs 的执行合伙人。他在初创公司和财富 500 强公司的软件产品开发方面拥有超过 12 年的经验。Daniel 拥有华盛顿大学的机器学习专业学位。他热衷于利用人工智能和云计算来创建创新的解决方案。作为机器学习领域的 AWS 社区建设者,Daniel 致力于分享知识并推动软件产品的创新。


查看原文链接:

https://www.infoq.com/news/2024/11/microsoft-magentic-one/

2024-12-24 09:175888

评论 1 条评论

发布
用户头像
这是infoq.com上11月份的一篇文章
2024-12-24 09:43 · 北京
回复
没有更多了
发现更多内容

E往无前 | 腾讯云大数据 ElasticSearch 高级功能:Cross Cluster Replication实战

腾讯云大数据

ES

🎉开发者的福音:TinyVue 组件库文档大优化!类型更详细,描述更清晰!

OpenTiny社区

开源 前端 UI组件库

SD-WAN解决企业国际互联组网需求

Ogcloud

网络 SD-WAN 网络管理

企业业务场景如何实现自动化连接?

RestCloud

APPlink

低代码开发平台通常提供哪些功能?发挥什么作用?

树上有只程序猿

软件开发 低代码 JNPF

GreatSQL登陆Arch Linux:成功的数据库安装之旅

GreatSQL

数据库 安装 greatsql

软件测试/人工智能丨如何自学人工智能软件测试

测试人

人工智能 软件测试

英特尔展示下一代晶体管微缩技术突破,将用于未来制程节点

E科讯

SD-WAN VS MPLS :怎么选择最合适的网络连接方案?

Ogcloud

网络 SD-WAN 组网 MPLS

请不要再把String或Style直接传递给自定义的组件了!

编程的平行世界

flutter android

新工具:CloudBees Pipeline Explorer改善日志查看体验,简化复杂Jenkins流水线故障排除

龙智—DevSecOps解决方案

pipeline

软件测试/人工智能丨运算符优先级

测试人

人工智能 软件测试

软件测试/人工智能丨字符串

测试人

人工智能 软件测试

期待2024年初以太坊的最新升级,降本增效,利好Layer2 !

币离海

怎样利用SD-WAN进行异地组网?

Ogcloud

网络 SD-WAN 组网

精准捕捉异常时刻——从写好事件标题与内容开始

观测云

运维 监控告警

性能提升30%,陌陌应用性能持续剖析产品化实践

童子龙

APM javaagent 应用性能监控产品

web组态(BY组态)接入流程

Geek_195e67

物联网 工业互联网 web组态 组态 by组态

PAM案例——某云服务商

尚思卓越

网络安全 堡垒机 特权账号管理

ONLYOFFICE协作空间2.0:文档协作更便捷

陈橘又青

协同办公 协同办公软件

Blast 凭什么可以自带收益?

币离海

软件测试/人工智能丨三目运算符

测试人

人工智能 软件测试

软件开发降本、增效、提质的产物——低代码平台

互联网工科生

软件开发 低代码开发 JNPF

需求测试的实践与思考

老张

工程实践 质量保障 需求评审

GitHubMySQL升级8.0复盘【译】

FunTester

Native Rawfile开发指导

HarmonyOS开发者

HarmonyOS

如何用ChatGPT来提高独立站博客的生产力

九凌网络

2023年,梦想实现的一年!

SAP虾客

年终总结 2023年

软件测试/人工智能丨人工智能会替代软件测试工程师吗

测试人

人工智能 软件测试

微软推出 Magentic-One,一个通用的多智能体代理系统_微软_InfoQ精选文章