写点什么

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

  • 2024-09-17
    北京
  • 本文字数:2060 字

    阅读完需:约 7 分钟

大小:1.03M时长:06:01
国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

在 2024 年 5 月发布的《中国 AGI 市场发展研究报告》中,InfoQ 研究中心将 AI Agent 定义为连接模型层与应用层的中间层,是现阶段大模型落地应用的重要补充。那在过去的两个季度,AI Agent 领域发生了诸多变化,本文希望通过分析技术框架、理想与现实的差距,以及厂商背景,为大家提供对 AI Agent 现状的全面理解。


更多关于 AI Agent 的具体应用案例,欢迎点击「链接」下载完整报告。

AI Agent 技术框架趋于统一


自 2023 年 3 月起,以 AutoGPT 为代表的一系列技术框架发布后,AI Agent 凭借其自主性和问题解决能力,迅速成为科技圈讨论的焦点。在随后的时间里,技术领域陆续推出了多种 AI Agent 技术框架,涵盖通用、环境模拟、软件开发、多模态、翻译、终端交互、数据分析等多种类型。同时,关于单智能体与多智能体的讨论也在持续。



在技术框架的不断探索中,AI Agent 的技术框架认知逐渐统一。大模型作为智能体的大脑,指导规划、工具使用、记忆三大基本能力模块具体行动。并在具体行动过程中,通过与环境、其他智能体以及人类的交互反馈,促进智能体的不断进化。



大模型「大脑」足够聪明到支撑 AI Agent 落地了吗?


从技术框架的角度,我们可以看到大模型在智能体中的重要性,这也引发了一个关键问题:大模型「大脑」是否足够聪明以支持 AI Agent 的实际落地?



作为智能体的大脑,大模型在短短两年内经历了三次主要更新和竞争重点的转变。然而,针对工具调用或真实环境模拟的国内外测试结果显示,当前大模型的表现仍不尽如人意。例如在 WebArena 测试中,GPT-4 的成功率也仅有 14.9%,今年发布的 GPT-4o 也并没有获得明显提升。

注:WebArena 通过构建一个智能体命令和控制环境,通过对大模型在电子商务、社交论坛、软件开发协作和内容管理四类环境中一系列评估任务的功能正确率进行评估。网址:https://webarena.dev/



此外,在 T-Eval 基准测试中,各大模型在推理得分方面普遍偏低且模型间差距明显。

注:T-Eval 大模型智能体基准测试,是专门针对智能体工具使用的全过程设计的基准测试,包含:规划(Plan)、推理(REASON)、检索(RETRIEVE)、理解(UNDERSTAND)、指令跟随(INSTRUCT)和审查(REVIEW)。


在本次报告的访谈中,来自一线的专家也提及,当前大模型在任务拆解和规划能力方面仍存在明显不足。现阶段,依赖大模型进行独立思考和自主规划路径的方式,尚不足以确保智能体的可靠性和任务成功率。

理想中的智能体和现阶段有哪些差距?


除了规划能力与理想状态存在一定差距外,InfoQ 研究中心还从自主思考、工具调用、记忆和多模态理解等方面,深入分析了理想中的智能体与现阶段智能体之间的差距。这样的技术现状也对 AI Agent 的开发与应用提出了更高的要求,迫使技术团队不断优化系统的可靠性,以实现更加全面的任务执行能力。



目前中国市场中,有哪些 AI Agent 产品已经面世?


InfoQ 研究中心还发现,目前在各个领域,已有众多不同类型的 AI Agent 产品面世,并且不同的产品从例如工作流等不同的方面提供了技术解决方案。因此 InfoQ 研究中心也从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,并形成《中国 AI Agent 产品罗盘》。


《罗盘》仍将持续更新,欢迎各位开发者和读者朋友们积极反馈和持续关注,也欢迎各类厂商参与交流,与 InfoQ 研究中心分享技术和产品的最新动态(联系方式:InfoQ 研究中心首席分析师 姜昕蔚:18618257676)。



参与 AI Agent 市场竞争的厂商背景如何?


除了产品盘点外,InfoQ 研究中心在对市面上对外提供 AI Agent 服务的厂商进行研究,并发现其背景主要分为大模型创业厂商、互联网科技厂商、RPA/流程自动化厂商和数字化企业服务商。


  • 大模型创业厂商:以 Dify、澜码科技、面壁智能为代表,借助自身大模型技术基础,满足企业大模型技术实际应用的需求。其主要竞争优势在于对大模型具有技术前瞻视角。其主要通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • 互联网科技厂商:以百度、火山引擎、腾讯为代表,借助借助自身大模型以及 AI 云服务,为客户提供完整的 AI 技术解决方案。因其自身基础设施、云、大模型等 AI 生态建设完整。同时先前多推出了大模型相关的应用,建立了较为良好的用户基础和产品迭代模式。其主要也通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • RPA/流程自动化厂商:以来也科技、实在智能为代表,其主要将 AI Agent 技术思路集成进原有 RPA 产品中,依托自身长期积累的企业内流程自动化落地经验,为客户提供更智能化的 AI+RPA 类产品和服务。


  • 数字化企业服务商:以用友、金蝶、标普云、数势科技为代表,依托自身长期积累的垂类领域或行业的 Know-how,实现企业内数字化系统的功能升级。对于此类厂商而言,AI Agent 多作为一个功能组件,内置进数字化系统,通过完善的 API 联动生态,实现与原有数字化系统的深度集成,从而让用户无感地体验 AI Agent。


更多关于 AI Agent 在数据分析、营销、金融、文娱游戏等的具体应用案例,欢迎点击「链接」,下载完整报告阅读。InfoQ 研究中心也期望通过持续的内容输出,继续支持中国 AI 领域的发展。


2024-09-17 10:3011010

评论

发布
暂无评论
发现更多内容

中企出海,数智人力构建全球化组织的驱动力!

用友BIP

中企出海 数智人力

GitHub上有哪些好项目?GeaFlow图计算快速上手之SSSP算法

TuGraphAnalytics

图算法 图论 GeaFlow tugraph 单源最短路径

AI新场景 安全新边界技术高峰会定档8月9日

权说安全

大数据实时链路备战——数据双流高保真压测 | 京东云技术团队

京东科技开发者

大数据 压测 企业号 7 月 PK 榜 双流 数据双流

告别传统人肉运维,实现360°可观测!奇点云数据存算引擎DataKun R2.0发布

Geek_2d6073

深耕零售行业数字化,乐檬软件与华为云携手共进

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

改变人力资源业务战略,释放变革性技术力量

智达方通

全面预算管理 企业人力资源 智达方通EPM系统

TE智库 |《中国通用大模型内容生成及安全性能力评测》报告发布,深度测评中国大模型玩家

TE智库

一文带你全面了解openGemini

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

图技术在 LLM 下的应用:知识图谱驱动的大语言模型 Llama Index

NebulaGraph

图数据库 知识图谱 LLM

点云标注在自动驾驶中的难点

来自四九城儿

云环境与服务器的四大区别简单聊聊

行云管家

云计算 云服务器 云环境

大型企业采购云管平台的需求是什么?选择哪家厂商好?

行云管家

云计算 企业上云 云管平台

AI驱动税务智能,开启智慧税务新纪元

用友BIP

AI 税务管理

货拉拉基于 Flink 计算引擎的应用与优化实践

Apache Flink

大数据 flink 实时计算

点云标注在自动驾驶中的优化策略

来自四九城儿

你还在用命令式编程?Python函数式编程让你的代码更优雅!

高端章鱼哥

Python 函数式编程

【专业 TypeScript 实战】15 个高级技巧,开创卓越开发之路!

汽车之家客户端前端团队

粗粮细作,铁合金行业的节能降耗

用友BIP

冶金

antv-x6使用及总结 | 京东物流技术团队

京东科技开发者

数据可视化 可视化开发 企业号 7 月 PK 榜 antv-x6

在Java中的空指针异常怎么避免?

java易二三

指针 java‘ #编程

IPQ5018|WIFI6|DR5018 vs DR5018M what's the difference?

wallyslilly

ipq5018

FTP文件传输工具:简单、高效、实用的数据传输方式

镭速

快速文件传输 FTP文件传输工具

频繁FullGC的原因竟然是“开源代码”? | 京东云技术团队

京东科技开发者

JVM GC 企业号 7 月 PK 榜 Full GC

提升直播软件源码开发平台性能关键利器功能_山东布谷科技创作

山东布谷科技

源码 软件 软件开发 直播 源码搭建

拆解雪花算法生成规则 | 京东物流技术团队

京东科技开发者

算法 雪花算法 企业号 7 月 PK 榜

【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(备份+恢复篇)

洛神灬殇

MySQL 数据恢复 数据备份 技术分析

创业大赛|第二届“金靴奔跑”创新创业大赛!

科兴未来News

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?_AI&大模型_InfoQ研究中心_InfoQ精选文章