AICon议程上新60%,阿里国际、360智脑、科大讯飞、蔚来汽车分享大模型探索与实践 了解详情
写点什么

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

  • 2024-09-17
    北京
  • 本文字数:2060 字

    阅读完需:约 7 分钟

大小:1.03M时长:06:01
国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

在 2024 年 5 月发布的《中国 AGI 市场发展研究报告》中,InfoQ 研究中心将 AI Agent 定义为连接模型层与应用层的中间层,是现阶段大模型落地应用的重要补充。那在过去的两个季度,AI Agent 领域发生了诸多变化,本文希望通过分析技术框架、理想与现实的差距,以及厂商背景,为大家提供对 AI Agent 现状的全面理解。


更多关于 AI Agent 的具体应用案例,欢迎点击「链接」下载完整报告。

AI Agent 技术框架趋于统一


自 2023 年 3 月起,以 AutoGPT 为代表的一系列技术框架发布后,AI Agent 凭借其自主性和问题解决能力,迅速成为科技圈讨论的焦点。在随后的时间里,技术领域陆续推出了多种 AI Agent 技术框架,涵盖通用、环境模拟、软件开发、多模态、翻译、终端交互、数据分析等多种类型。同时,关于单智能体与多智能体的讨论也在持续。



在技术框架的不断探索中,AI Agent 的技术框架认知逐渐统一。大模型作为智能体的大脑,指导规划、工具使用、记忆三大基本能力模块具体行动。并在具体行动过程中,通过与环境、其他智能体以及人类的交互反馈,促进智能体的不断进化。



大模型「大脑」足够聪明到支撑 AI Agent 落地了吗?


从技术框架的角度,我们可以看到大模型在智能体中的重要性,这也引发了一个关键问题:大模型「大脑」是否足够聪明以支持 AI Agent 的实际落地?



作为智能体的大脑,大模型在短短两年内经历了三次主要更新和竞争重点的转变。然而,针对工具调用或真实环境模拟的国内外测试结果显示,当前大模型的表现仍不尽如人意。例如在 WebArena 测试中,GPT-4 的成功率也仅有 14.9%,今年发布的 GPT-4o 也并没有获得明显提升。

注:WebArena 通过构建一个智能体命令和控制环境,通过对大模型在电子商务、社交论坛、软件开发协作和内容管理四类环境中一系列评估任务的功能正确率进行评估。网址:https://webarena.dev/



此外,在 T-Eval 基准测试中,各大模型在推理得分方面普遍偏低且模型间差距明显。

注:T-Eval 大模型智能体基准测试,是专门针对智能体工具使用的全过程设计的基准测试,包含:规划(Plan)、推理(REASON)、检索(RETRIEVE)、理解(UNDERSTAND)、指令跟随(INSTRUCT)和审查(REVIEW)。


在本次报告的访谈中,来自一线的专家也提及,当前大模型在任务拆解和规划能力方面仍存在明显不足。现阶段,依赖大模型进行独立思考和自主规划路径的方式,尚不足以确保智能体的可靠性和任务成功率。

理想中的智能体和现阶段有哪些差距?


除了规划能力与理想状态存在一定差距外,InfoQ 研究中心还从自主思考、工具调用、记忆和多模态理解等方面,深入分析了理想中的智能体与现阶段智能体之间的差距。这样的技术现状也对 AI Agent 的开发与应用提出了更高的要求,迫使技术团队不断优化系统的可靠性,以实现更加全面的任务执行能力。



目前中国市场中,有哪些 AI Agent 产品已经面世?


InfoQ 研究中心还发现,目前在各个领域,已有众多不同类型的 AI Agent 产品面世,并且不同的产品从例如工作流等不同的方面提供了技术解决方案。因此 InfoQ 研究中心也从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,并形成《中国 AI Agent 产品罗盘》。


《罗盘》仍将持续更新,欢迎各位开发者和读者朋友们积极反馈和持续关注,也欢迎各类厂商参与交流,与 InfoQ 研究中心分享技术和产品的最新动态(联系方式:InfoQ 研究中心首席分析师 姜昕蔚:18618257676)。



参与 AI Agent 市场竞争的厂商背景如何?


除了产品盘点外,InfoQ 研究中心在对市面上对外提供 AI Agent 服务的厂商进行研究,并发现其背景主要分为大模型创业厂商、互联网科技厂商、RPA/流程自动化厂商和数字化企业服务商。


  • 大模型创业厂商:以 Dify、澜码科技、面壁智能为代表,借助自身大模型技术基础,满足企业大模型技术实际应用的需求。其主要竞争优势在于对大模型具有技术前瞻视角。其主要通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • 互联网科技厂商:以百度、火山引擎、腾讯为代表,借助借助自身大模型以及 AI 云服务,为客户提供完整的 AI 技术解决方案。因其自身基础设施、云、大模型等 AI 生态建设完整。同时先前多推出了大模型相关的应用,建立了较为良好的用户基础和产品迭代模式。其主要也通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • RPA/流程自动化厂商:以来也科技、实在智能为代表,其主要将 AI Agent 技术思路集成进原有 RPA 产品中,依托自身长期积累的企业内流程自动化落地经验,为客户提供更智能化的 AI+RPA 类产品和服务。


  • 数字化企业服务商:以用友、金蝶、标普云、数势科技为代表,依托自身长期积累的垂类领域或行业的 Know-how,实现企业内数字化系统的功能升级。对于此类厂商而言,AI Agent 多作为一个功能组件,内置进数字化系统,通过完善的 API 联动生态,实现与原有数字化系统的深度集成,从而让用户无感地体验 AI Agent。


更多关于 AI Agent 在数据分析、营销、金融、文娱游戏等的具体应用案例,欢迎点击「链接」,下载完整报告阅读。InfoQ 研究中心也期望通过持续的内容输出,继续支持中国 AI 领域的发展。


2024-09-17 10:3010059

评论

发布
暂无评论

Neon 支持

Changing Lin

9月日更

Go- 反射

HelloBug

reflect Go 语言

Django 配置夯实,再补充几个配置项,够够的了

梦想橡皮擦

9月日更

架构实战营 - 模块二作业

en

「架构实战营」

架构实战营 微信朋友圈高性能复杂度分析

💤 ZZzz💤

架构实战营

k8s garbage collector源码分析(1)-启动分析

良凯尔

Kubernetes 源码分析 Kubernetes源码 #Kubernetes#

k8s garbage collector源码分析(2)-处理逻辑分析

良凯尔

Kubernetes 源码分析 Kubernetes源码 #Kubernetes#

Go- 接口-3

HelloBug

interface Go 语言

Python开发篇——添加mysqlclient

吴脑的键客

Python MySQL

Go- 接口-2

HelloBug

interface Go 语言

【8月书单】

姬翔

9月日更

Go- 接口-1

HelloBug

interface Go 语言

微信朋友圈高性能架构分析-模块二作业

娜酱

#架构实战营

技术债的前世今生

码猿外

架构设计 技术债 敏捷精益 软件架构治理

微信朋友圈高性能架构

Geek_db27b5

10. 大数据--人工智能的基石

Databri_AI

人工智能

Redis核心原理与实践--字符串实现原理

binecy

redis 书籍推荐 源码学习

奉若神明!阿里技术专家开源ApacheDubbo核心源码笔记

Java~~~

Java spring 架构 面试 dubbo

阿里技术专家亲码:满干货“Redis核心笔记”,全篇无尿点

Java~~~

Java redis 架构 面试 中间件

设计微博系统中”微博评论“的高性能高可用计算架构

架构0期-Bingo

架构师实战营 附一作业(按接口隔离原则优化设计无人机引导直升机攻击的类图)

代廉洁

架构实战营

双非本科跨专业5面京东,8600小时后收到通知,流下喜悦泪水

Java~~~

Java 架构 面试 微服务 JVM

Linux之ssh-agent命令

入门小站

Linux

惊讶!阿里大佬总结的图解Java小册火了,完整版笔记开放下载

Java~~~

Java 架构 面试 微服务 JVM

面试题 -- 如何设计一个线程池

秦怀杂货店

线程 线程池 并发

模块2-作业

笑看风雨情

ShardingSphere LogicSQL 的生成探索

源码 ShardingSphere

Java + opencv 实现老照片特效滤镜

张音乐

OpenCV 图像处理 9月日更 特效 老照片

在线JSON转Csharp工具

入门小站

工具

学生管理系统 - 毕设架构设计

黑鹰

万字长文说透分布式锁

多颗糖

redis zookeeper 分布式 分布式锁 etcd

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?_AI&大模型_InfoQ研究中心_InfoQ精选文章