写点什么

DeepSeek 前成员联手李飞飞等大佬发布开源新框架,训练智能体在行动中学会思考

  • 2025-04-25
    北京
  • 本文字数:2846 字

    阅读完需:约 9 分钟

大小:1.32M时长:07:40
DeepSeek前成员联手李飞飞等大佬发布开源新框架,训练智能体在行动中学会思考

很多人都觉得 2025 年会是“AI 智能体元年”,也就是基于 OpenAI、Anthropic、Google 和 DeepSeek 等机构提供的大语言模型,打造专注特定任务的智能体系统。

 

但是,最近在社交平台 X 上有个调查显示,现在大部分 Agent 都在“玩票”阶段,还没真正走出实验室,普遍滞留在“企业试点”的状态中。

 


不过,李飞飞所在的一支团队或许即将带来改变:他们与西北大学、微软、斯坦福大学和华盛顿大学的研究人员合作,最近推出了一套名为 RAGEN 的新系统。这个系统旨在提升人工智能在真实世界,尤其是在企业应用中的稳定性和可靠性。

 


据悉,该项目由前 DeepSeek 研究员、现就读于西北大学计算机科学博士的王子涵主导。王子涵研究聚焦于大语言模型(Foundation Models)的自主性、效率以及长文本理解。此前,王子涵曾在 DeepSeek 担任研究员,并参与了 DeepSeek-V2 等重要项目。

 


推理智能体训练框架已开源

 

与解题或代码生成等静态任务不同,RAGEN 聚焦在多轮交互场景中训练智能体,要求它们能在不确定性中进行推理、记忆历史对话并灵活应对变化。

 

RAGEN 构建于一个名为 StarPO(State-Thinking-Actions-Reward Policy Optimization,即“状态-思维-动作-奖励 策略优化”)的定制强化学习框架之上,核心思想是让 LLM 通过“经验”学习而非“死记硬背”。系统重点在于训练智能体完成完整的决策路径,而不是仅仅优化某一次回答。

 


StarPO 包括两个交替进行的阶段:在 rollout 阶段,LLM 基于推理生成完整的交互序列;而在 update 阶段,模型根据归一化后的累计奖励进行参数更新。相比传统的策略优化方法,这种设计让训练过程更加稳定,学习结果也更易于解释。

 


研究团队在实验中使用了阿里巴巴开源的 Qwen 系列模型(包括 Qwen 1.5 和 Qwen 2.5)作为基础语言模型进行微调。这些模型具有开放权重、指令执行能力强等优点,有助于确保实验结果的可复现性,并支持在符号任务上的一致性对比。

 

这一系统为有志于开发更具“思考力、规划能力和自我进化能力”的 AI 智能体提供了坚实基础。RAGEN 不只是关注任务是否完成,更重视模型是否真正经历了学习与推理过程。随着 AI 技术朝着更高程度的自主性发展,像 RAGEN 这样的项目正在帮助我们理解:如何训练出不仅依赖数据、还能从自身行为后果中学习的模型。

 

RAGEN 及其配套的 StarPO 和 StarPO-S 框架现已开源,项目托管于 GitHub 上,采用的是 MIT 协议。

 


GitHub 地址:https://github.com/RAGEN-AI/RAGEN

 

Agent 强化学习训练如何才能不崩溃?

 

王子涵在一条广泛传播的 X 贴文中指出了训练中的核心难题:为什么 RL(强化学习)训练总是会“崩”?

 

团队发现,训练初期的智能体通常能生成结构清晰、逻辑合理的回答,但随着训练推进,强化学习系统更倾向于奖励“捷径式”回答,最终导致模型反复输出相似内容、推理能力逐渐退化。这种现象被他们称为“回声陷阱(Echo Trap)”。

 

这种退化通常由反馈回路驱动:某些回答在早期获得高奖励,从而被模型频繁复制使用,抑制了探索其他可能性的动机。

 

但这种问题有明确的迹象可循:比如奖励波动剧烈、梯度异常增大、推理痕迹逐渐消失等。

 


为了在可控环境中系统性研究智能体的行为,RAGEN 设计了三个符号化测试环境,用于评估智能体的决策能力:

  • Bandit(老虎机):一个单轮的随机任务,用于测试智能体在不确定条件下的符号化风险-收益推理能力;

  • Sokoban(推箱子):一个多轮、确定性的益智任务,涉及不可逆决策,考验智能体的规划能力;

  • Frozen Lake(冰湖):一个具有随机性的多轮任务,要求智能体具备适应性和前瞻性思考能力。

 

这些测试环境的共同特点是:尽量剥离现实世界中的先验知识干扰,让智能体仅依赖训练中学到的策略进行决策。

 


以 Bandit 为例,智能体会被告知“龙”和“凤凰”代表不同的奖励分布,但不会直接获得概率信息。它必须进行类比式推理,比如把“龙”理解为“力量”、将“凤凰”理解为“希望”,并据此预测潜在结果。这类设定鼓励模型生成可解释、具备抽象类比能力的推理路径。

 

为解决训练过程中模型容易“崩溃”的问题,研究团队在原有 StarPO 框架的基础上提出了增强版本 StarPO-S,引入了三项关键机制来提升训练稳定性:

  1. 基于不确定性的 rollout 筛选:优先选用那些智能体对结果感到“犹豫”的交互序列,提升训练数据的有效性;

  2. 移除 KL 惩罚项:放宽模型对初始策略的约束,让它更自由地探索新的行为方式;

  3. 非对称 PPO 剪裁:对高奖励路径加大学习力度,相对降低对低奖励路径的关注,从而提升整体学习效率。

 

这些策略显著减缓甚至避免了训练过程中的崩溃问题,同时在所有三个任务环境中均带来了更好的表现。正如王子涵所说:“StarPO-S 在三个任务上都表现不错,不仅解决了训练崩溃问题,奖励水平也更高。”

 


落地企业应用,还有哪些现实难题?

 

强化学习的效果不仅依赖模型本身的结构,还与智能体在训练过程中所生成的数据质量密切相关。团队总结了三个对训练效果影响最大的关键因素:

  • 任务多样性:让模型接触更多样的起始情境,有助于提升泛化能力;

  • 交互粒度:支持每轮多个动作,能够带来更细致的计划和更丰富的策略;

  • rollout 新鲜度:确保训练数据与当前模型策略保持一致,避免旧策略“过时”的学习信号干扰训练。

 

这三个维度共同提升了训练过程的稳定性与实用性。

 

尽管显式推理在 Bandit 这类简单的单轮任务中表现出色,但在多轮任务的训练中,推理能力往往会随着训练进度逐渐减弱甚至消失。即使采用了结构化提示词或 <reasoning> 等显式标记,推理过程仍可能无法维持,除非模型在训练中直接因推理质量获得奖励。

 

这暴露出当前奖励机制的一大短板:它更多聚焦于“结果对不对”,而忽视了“过程好不好”。

为此,团队尝试通过格式惩罚等方式,引导模型生成结构更清晰的推理过程,但他们也指出,要真正解决这个问题,仍需进一步优化奖励设计逻辑。

 

尽管 RAGEN 论文提出了清晰的技术方向,但要真正将其应用到真实的企业环境中,仍然存在不少实际的挑战。例如,RAGEN 目前主要处理的是高度抽象的符号类问题。那么,它的方法是否能顺利应用到像发票处理、客户支持这类真实的业务流程中呢?企业是否需要为每个具体的应用场景重新设计任务环境和奖励机制?

 

另一个核心问题是可扩展性。即便引入了 StarPO-S 等稳定性优化机制,论文仍坦承:当任务长度足够长时,模型训练最终仍可能崩溃。这不禁让人反思,是否存在某种理论或工程路径,能让智能体在开放式、持续演进的任务中始终维持推理能力?

 

RAGEN 的意义,实际远不止于技术上的突破。它不仅是对强化学习技术的一次重要尝试,更标志着我们向“具备自主推理能力的智能体”的目标迈进了一步。虽然现在还不能确定它是否会成为未来企业人工智能技术的重要组成部分,但它在智能体学习机制上的新颖见解,已经悄然改变着我们对大型模型训练边界的理解和想象。

 

参考链接:

https://x.com/wzihanw/status/1915052871474712858

https://venturebeat.com/ai/former-deepseeker-and-collaborators-release-new-method-for-training-reliable-ai-agents-ragen/

 

2025-04-25 18:182

评论

发布
暂无评论

边缘计算学习资料,边缘计算架构设计和技术应用

金陵老街

边缘计算

成长太慢,选择跳槽还是提升能力?

老张

能力提升 职场成长

Agent 智能体创作大赛+参赛小分队召集

声网

【直播预告】“大模型加速器2.0”版本即将开箱!

合合技术团队

人工智能 算法 图像识别 #大数据

AI Agent成大模型落地“接盘侠”,百度、智谱AI等国内巨头齐发力,你了解多少?

Techinsight

干货!传统工厂数字化转型,从规划到落地的实战要点

Techinsight

工厂安全审计系统(源码+文档+讲解+演示)

深圳亥时科技

陆陆小科普:让你做黑龙江等保测评整改,少走弯路

黑龙江陆陆信息测评部

等保测评 网络安全信息安全、 哈尔滨 黑龙江

SvelteKit 最新中文文档教程(5)—— 页面选项

冴羽

vue.js 前端 React Svelte SvelteKit

爬虫+动态代理助力 AI 训练数据采集

袁袁袁袁满

代理IP Python爬虫 爬虫实战 免费代理

「DeepSeek-V3 技术解析」:多头潜在注意力机制(MLA)

Baihai IDP

程序员 AI LLM DeepSeek v3 MLA

传统零售行业数字化转型,如何破局电商冲击与多变需求?

Techinsight

阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024

阿里云大数据AI技术

人工智能 elastic GenAI AI搜索

央国企数字化转型难点重重,如何破局?

Techinsight

高效通过等保:哈尔滨等保整改方案,70分合格一键落地

黑龙江陆陆信息测评部

互联网技术 等保评测 黑龙江

【GreatSQL优化器-17】DYNAMIC RANGE

GreatSQL

Zoom 全线产品引入 Agent,实现语音转录总结和语音客服等功能;谷歌云推出 TTS 模型 Chirp 3丨日报

声网

“满血版AI”如何进入智慧家庭?答案在华为FTTR星光F60

脑极体

AI

实验室辅助管理系统(源码+文档+讲解+演示)

深圳亥时科技

虾皮(shopee)商品列表API接口详解

tbapi

shopee API shopee商品详情接口 shopee商品列表接口

BOE(京东方)位列2024年PCT国际专利申请榜全球第6 创新引擎推动产业高质发展

科技热闻

征程 6 VP简介与单算子实操

地平线开发者

自动驾驶 算法工具链 地平线征程6

从 0 到 1 掌握鸿蒙 AudioRenderer 音频渲染:我的自学笔记与踩坑实录(API 14)

李游Leo

HarmonyOS

AI技术赋能企业财务管理,用友BIP创新五大智能财务场景

用友智能财务

AI 财经 数智化 会计

数据分析与AI丨利用知识图谱实现 AI Fabric 治理

Altair RapidMiner

人工智能 AI 数据分析 知识图谱 RapidMiner

助力出海!德国铁路与宝马车厂应用IoTDB数字化解决方案

Apache IoTDB

DeepSeek前成员联手李飞飞等大佬发布开源新框架,训练智能体在行动中学会思考_生成式 AI_Tina_InfoQ精选文章