写点什么

构建未来智能体,微软宋恺涛揭秘 JARVIS 系统及其在 AI 领域的应用前景

宋恺涛

  • 2024-08-14
    北京
  • 本文字数:2215 字

    阅读完需:约 7 分钟

构建未来智能体,微软宋恺涛揭秘 JARVIS 系统及其在AI领域的应用前景

AI Agent 是一种先进的智能实体,它由人工智能技术驱动,能够自主感知环境、做出决策,并执行相应的动作。这些智能代理具备自主性,能够独立运行而无需人类直接干预;它们具有强大的感知能力,通过传感器或输入模块来捕捉周围环境的信息。基于这些信息和预定义的目标,AI Agent 能够进行合理的决策,并采取行动以实现这些目标。此外,它们还拥有记忆、规划和使用工具的能力,这使得它们能够适应复杂环境并完成复杂的任务。


在 8 月 18 日 -19 日 AICon 上海站,我们策划了【AI Agent 技术突破与应用】论坛,并且也荣幸邀请到了微软亚洲研究院高级研究员宋恺涛,他将发表《The Future is Here, A Deep Dive into Autonomous Agent》的演讲,通过他的分享你可以到了解构建智能体中需要考虑的组件,以及了解当下的智能体构建存在的问题。



本文为宋恺涛会前采访文。宋恺涛提到 JARVIS 系统是一个基于大型语言模型的智能调度工具,它能够与多个专家 AI 模型合作,处理各种复杂任务。尽管它还处于早期阶段,但已经在多模态处理和工具使用方面展现出潜力。面对扩展功能时的挑战,JARVIS 采用分层结构来优化模型调度。未来,JARVIS 将继续发展,目标是构建更强大的单体和多智能体系统,并可能建立一个智能体应用库。


以下为采访正文:

InfoQ:能否简单说明 JARVIS 系统的基本功能和工作原理?


宋恺涛:JARVIS 系统的核心,是以大模型为基础,将其作为一个管理的神经中枢,通过引入任务规划,选择机制等模块来实现对各种细分的专家模型的调度。这里面我们会选择像 Hugging Face 这样的机器学习社区来提供专家模型。相比于现在的智能体,首先 JARVIS 是一个非常早期的工作,属于一个早期的智能体架构。现在的工作,可能更加完善,包括现在会引入多智能体机制还有更加细微的提示词设计以及记忆机制等等。但可以这么说,JARVIS 应该是一个初步展现智能体雏形的工作。

InfoQ:JARVIS 系统中的 LLM 如何与多个 AI 专家模型进行协作?


宋恺涛:J 这个也是我们当时对大模型的一种观察。从 2022 年底 ChatGPT 诞生以来,我们也在观察大模型本身的语言能力到底有多强,如果其语言能力足够强的话,就应该能够像人类一样去掌握语言的能力。因此,如果我们能够提供 LLM,这些 AI 专家模型如何使用,那么,大模型就应当具备去调度,协作和使用它的能力。因此,我们将 AI 模型的描述作为 prompt 提供给 LLM,来告诉大模型,在什么任务情况下需要使用到它。同事还要求其能够做任务分解,判断各个任务之间依赖性。使其剧本对 AI 专家模型的协作调度能力。

InfoQ:这种协作模型的具体流程是怎么样?


宋恺涛: 具体而言,我们首先利用大预言模型进行任务规划的能力,最用户的需求进行任务分析和子任务分解,来得到子任务序列以及子任务之间的相互依赖。然后,基于我们得到的任务序列,我们会采用一种模型选择机制,来选择最适合的模型解决对应的子任务。最终我们会执行和调度这些模型来生成最终的模型输出。

InfoQ:不同 AI 模型之间的协同工作机制如何影响整体系统的性能


宋恺涛: 我觉得核心难度会有这么几点:1)如果我们希望系统的功能越强大,就可能需要我们调度更多的模型。这样一来,如果这些模型是用 prompt 的形式来构建的话,就会对 context 的长度带来很多的消耗;2)如何正确地规划各个任务序列,也是一个非常大的挑战。如果预测了错误的任务序列,那么也会对系统的后续生成产生影响,如何及时地修正和改进会非常正要。

InfoQ:JARVIS 在哪些领域或者场景得到应用


宋恺涛: 其实作为调度工具为代表的智能体,他在很多需要丰富智能体功能的地方上都会需要到。以开源机器学习社区(Hugging Face,国内比如 Modelscope)为代表,那么我们可以通过构建对不同模型的调度,产生一个能够处理语言,语音,图像,视觉等不同模态的智能体。除此以外,包括使用像天气预报,数学计算等一系列工具的方式,都能够构建更强的智能体。因此,当我们需要扩展语言模型的任务范围时,JARVIS 这样的智能体就会有很大的应用场景。

InfoQ:在这些应用场景中,JARVIS 系统遇到过哪些问题,又是如何解决这些问题的


宋恺涛: 其实这些问题和我们上述的机制时有关,那就是当我们想要构建更强大的智能体时,就不得不引入更多的专家模型或者说叫工具。而当我们需要 Scale Up 这些工具时,就会对模型产生很大的负担。所以如何调度海量工具,会是一个非常大的调整。从目前来说,我们会采用分层结构的,也就是将工具表示成树形结构来进行分配调度。

InfoQ:您觉得智能体未来的发展方向会是什么?


宋恺涛: 我觉得有这么几点:1)如何构建强大的单体智能体;2)在单体智能体的基础上,构建多智能体;3)能否针对智能体,去构建其对应的社区库,就像 App Store 一样。这些都很关键。

InfoQ:是否方便为我们介绍下您即将分享的 Agent 落地和 JARVIS 的关系?


宋恺涛: 其实整体来时,我还是会围绕 JARVIS / HuggingGPT 为主来展开。我可能也会目前智能体的扩展研究,来讨论,包括从 efficiency,self-improvement,评估这些角度来展开讨论,如何更好更鲁棒地构建可信任可靠的智能体。

嘉宾介绍:


宋恺涛,微软亚洲研究院高级研究员,博士毕业于南京理工大学。其研究方向为自然语言处理,大语言模型,AI 智能体。其发表了超过 40 篇国际学术会议论文和期刊,包括 NeurIPS,ICML,ICLR,ICCV,ACL,EMNLP,KDD,AAAI,IJCAI 等,同时担任多个学术会议和期刊的审稿人。其代表作包括 HuggingGPT 等智能体研究以及 MASS,MPNet 等基础模型训练。


2024-08-14 19:007874

评论

发布
暂无评论
发现更多内容

【架构训练营模块二作业】分析一下微信朋友圈的高性能复杂度

yhjhero

#架构训练营

欧拉的奇异之旅·风暴来临与欧拉初诞

脑极体

电商直播选品该怎么做?有没有好用的工具?

优秀

带货 直播 低代码开发

在线ASCII Banner艺术字生成工具

入门小站

工具

区块链通证经济:通往未来十年财富分配的新格局

CECBC

Linux系统编程-(pthread)线程通信(信号量)

DS小龙哥

信号量 2月月更

浅谈AI机器学习及实践总结 | 社区征文

张浩_house

机器学习 数据工程 机器学习算法 新春征文

Web Components 系列(五)—— 关于 Templates

编程三昧

前端 组件化 2月月更

基于云开发的健身房预约小程序平台

CC同学

RTE2021 回顾丨实践中的摸爬滚打,AI OPS 落地之路

RTE开发者社区

人工智能 算法 Ops

第十节:SpringBoot中的日志管理

入门小站

spring-boot

一手实录!朱广权的AI手语搭档是怎样“养成”的?

百度开发者中心

百度智能云 百度AI

裁员,降薪,大牛出走:AI大退却的始末缘由

脑极体

浅析PHP伪协议在CTF的应用

喀拉峻

网络安全

模块八作业

Geek_e6f7f6

架构实战营

AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测

百度开发者中心

百度AI

网络安全kali渗透学习 web渗透入门 如何进行基于ping命令的探测

学神来啦

区块链+体育发展提速 区块链球员数据系统预计上半年投入使用

CECBC

实战领域驱动设计开篇

worry

领域驱动设计 DDD 领域驱动 Domain Driven Design

Linux系统编程-Shell脚本基本使用(变量、运算符、语句等)

DS小龙哥

shell脚本编写 2月月更

关于 docker-compose stop 和 docker-compose start 的误解

liuzhen007

容器 云服务 2月月更

玉米可流转数字仓单标准的落地 将加速行业的资产数字化进程

CECBC

Linux系统编程-(pthread)线程通信(自旋锁)

DS小龙哥

自旋锁 2月月更

加入科学计算SIG,挑战最前沿的AI+Science研发与创新

百度开发者中心

百度AI

全球案例 | 一家有着百年历史的航空公司如何扩展和转型,推动航空业创新

龙智—DevSecOps解决方案

Atlassian Jira 航空公司

阿里云张献涛:自主最强DPU神龙的秘诀

阿里云弹性计算

阿里云 神龙架构 DPU

基于 Kyma 的企业级云原生应用的扩展案例分享 | 社区征文

汪子熙

Kubernetes 云原生 新春征文 2月月更 Kyma

如何将Perforce Helix Core与CI构建服务器结合使用

龙智—DevSecOps解决方案

ci 持续集成 持续交付 CD

DC系列靶机知识点总结

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

Apache APISIX 存在改写 X-REAL-IP header 的风险公告(CVE-2022-24112)

API7.ai 技术团队

IP 漏洞 Apache APISIX APISIX 网关

Kotlin语法手册(一)

寻找生命中的美好

android kotin

构建未来智能体,微软宋恺涛揭秘 JARVIS 系统及其在AI领域的应用前景_AI&大模型_InfoQ精选文章