写点什么

如何解决智能体探索和利用行为之间的平衡问题?

  • 2024-10-10
    北京
  • 本文字数:4028 字

    阅读完需:约 13 分钟

如何解决智能体探索和利用行为之间的平衡问题?

作者|曾祥华 北京航空航天大学 博士生


本文介绍来自北京航空航天大学彭浩老师团队发表在 NeurlPS 2024 上的一篇文章“Effective Exploration Based on the Structural Information Principles”。为了解决当前基于传统信息论的探索方法由于忽略状态 - 动作空间内在结构而导致效率低下的问题,作者提出了一种基于结构信息原理的探索框架,即 SI2E。SI2E 通过定义结构互信息,提出一种新的状态动作表征原则,捕捉状态 - 动作对之间的动态关系,构建最优编码树。通过分析状态 - 动作对之间的价值差异,定义策略条件结构熵,构造内在奖励机制,实现对于状态 - 动作空间更为有效的覆盖。在 MiniGrid、MetaWorld 和 DeepMind Control Suite 等测试环境中,SI2E 在最终性能与采样效率等方面的表现遥遥领先,最大提升幅度分别达到了 37.63% 和 60.25%。


论文名称:Effective Exploration Based on the Structural Information Principles


论文链接:https://penghao-bdsc.github.io/papers/Effective Exploration Based on the Structural Information Principles.pdf


代码链接:https://github.com/SELGroup/SI2E


引    言



在强化学习(RL)领域,智能体探索和利用行为之间平衡至关重要,尤其在高维度观测和稀疏奖励的场景中。最近,基于传统信息论的探索方法在自监督设置中最大化对于状态空间与动作空间的覆盖,以优化智能体策略并减轻次优结果的风险。然而,上述方法存在两个挑战,目前尚未解决:


挑战 1:传统最大熵策略容易受到价值分布影响,导致偏向于低值状态的不平衡探索


为减轻这一问题,该团队引入了以策略值为条件的高维结构熵。基于对状态 - 动作对的价值估计解析层次化社区结构,并依据智能体探索行为定义内在奖励,构建奖励塑形机制,在最大化整个状态 - 动作空间的覆盖的基础上,避免对于低值社区的无效覆盖。


挑战 2:当前的结构信息研究存在单一变量限制,并未涉及对多变量之间的关系建模


在这项工作中,作者提出了结构互信息的概念,首次实现对于多变量之间结构相似性的度量,进一步提出对于状态 - 动作对的表征原则,在捕捉环境动态信息的同时,避免无效的观测干扰。


图 1 说明了一个简单的六状态马尔可夫决策过程 (MDP),其中包含四个动作。如图例所示,蓝线和红线的不同密度代表不同的动作,导致状态转换,旨在返回初始状态。实线特别表示动作和。状态和之间的转换被视为冗余,因为它们不利于实现有效返回的主要目标。因此,状态 - 动作对和具有较低的策略值。最大化状态 - 动作香农熵的策略将涵盖所有可能的转换(蓝色)。相反,整合固有状态 - 动作空间结构的最大熵策略会将这些冗余的状态 - 动作对划分为顶点子社区,并最小化该子社区的熵以避免不必要地访问它。同时,它最大化了状态 - 动作熵,从而最大限度地覆盖了更有可能在简化的五状态 MDP 中促成期望结果的转换(红色)。


结构互信息


该团队解决了现有结构信息原理中普遍存在的单变量约束,并引入了结构互信息的概念,以便在 SI2E 框架内进行后续的状态 - 动作表示学习。


给定随机变量对,,构造一个带权无向二分图来表示和变量间的联合分布,同时限制该图上的编码树为二层近似二叉结构,并得到最优的近似二叉树:



最优近似二叉树中的每个中间节点对应一个包含单一顶点与单一顶点的子集,从而在变量与之间建立一个一一匹配结构。对于中从左到右排序的第个中间节点标记为,在对应的子集中和顶点分别被标记为和。


为了准确定义结构互信息,需要考虑不同划分结构下两个变量的联合熵。作者引入一个应用于的 - 转换算子,以系统地遍历这些变量的所有潜在一对一匹配结构,从而提供对于结构相似性的全面度量。给定一个整数参数,该算子生成一个新的二层近似二叉树。



下图给出了一个对于上述过程的直观解释。



结构互信息定义:



结构互信息与传统互信息之间的关系:



SI2E 框架设计


所提出 SI2E 框架的详细设计如下图所示,主要包含状态动作表征与智能体探索模块。



状态动作表征

结构互信息原理


为了有效地学习与环境动态信息相关的状态 - 动作表示,作者提出了一种创新的表征原则,该原则最大化了与后续状态的结构互信息,并最小化了与当前状态的结构互信息。


在该阶段,作者利用编码器和将当前观察值和表示为状态和,并生成对于元组的潜在表示。通过构建无向二部图和,作者分析与当前状态和随后状态的联合分布。通过计算互信息和,作者基于信息瓶颈 (IB),提出了一种表征原则,旨在最小化同时最大化。当与之间的联合分布呈一一对应时,它们的互信息达到最大值,这表明每个值都有唯一值与之对应,反之亦然。因此,结构互信息可以被认为是获取动态相关状态 - 行为表示的理想学习目标。


表征学习目标


在研究中,由于直接最小化存在计算挑战,作者提出了一个变分上界,将最小化转化为最小化和。通过利用一个可行的解码器来近似的边缘分布,得出了的一个上界。同时,为了降低条件熵,作者引入了一个预测目标,通过解码器来近似条件概率。同时,为了有效优化,作者最大化其下界。通过使用一个替代解码器来近似条件概率,得到了的一个下界。


最大结构熵探索


作者设计了一个独特的内在奖励机制,以解决传统熵策略中对低价值状态的不平衡探索的挑战。具体来说,基于策略函数生成了状态 - 动作空间的层次化社区结构,并依据智能体访问概率定义价值条件结构熵,实现更为有效的最大化覆盖探索。

分层状态 - 动作结构


作者从智能体与环境的交互历史中提取状态 - 动作对,形成一个完整的图,其中反映了智能体策略引起的价值关系。在这个图中,任意两个顶点和通过一条无向边连接,其权重由状态 - 动作对和的策略值差异确定。通过最小化图的二维结构熵,生成了二层最优编码树。该树描述了状态 - 动作顶点之间的分层社区结构,根节点涵盖所有顶点,每个中间节点对应于一个子社区,其中的顶点共享相似的策略值。

值条件结构熵


为了衡量智能体探索在状态 - 动作空间中的覆盖程度,作者构建了一个额外的分布图,与原图共享相同的顶点集。对于所有状态 - 动作对,给定正的访问概率,作者证明了该加权、无向、连通图的存在性,其中每个顶点的度数与其访问概率成正比。


在图中,状态 - 动作顶点集合为,状态 - 动作子社区集合为。与这些集合的访问概率分布相关联的香农熵分别表示为和 (),其中等同于整个状态 - 动作空间的香农熵。在二层状态 - 动作社区内,定义了的结构熵。理论证明了结构熵和香农熵之间存在如下关系:



其中,是的一个变分下界。因此,在确保整个状态 - 动作空间最大覆盖的同时,缓解了状态 - 动作子社区之间不均匀覆盖的问题。通过识别智能体策略引起的分层状态 - 动作结构,SI2E 实现了更为有效的最大覆盖探索,确保了其探索优势。

评估和内在奖励


在面对直接获取访问概率的不可行性时,作者研究采用了 k-NN 熵估计器来估计条件结构熵下界,以评估状态 - 动作空间的覆盖程度。通过使用这个估计器得到的结果,可以定义内在奖励,并结合外部任务奖励,训练强化学习智能体来解决目标任务。

实验与评估


为了验证该框架的性能优势,作者在 MiniGrid、MetaWorld 和 DMControl 等环境中进行了一系列综合性的对比实验。

MiniGrid 实验对比


在 MiniGrid 基准测试中,作者评估了 SI2E 在导航任务中的表现,这些任务旨在在稀疏奖励环境中实现目标。该设置是部分可观察的,智能体接收到周围网格的 7×7×3 嵌入而不是整个网格环境。作者采用 A2C 智能体作为基准,并将香农熵和基于价值的状态熵(VCSE)作为对比。实验结果显示,在各种导航任务中,包括带障碍物的导航、长期导航以及带障碍物的长期导航,如表 1 所示,SI2E 在最终性能和样本效率方面表现出显著改善。

MetaWorld 实验对比


作者进一步在 MetaWorld 基准测试中的视觉操作任务上评估 SI2E 框架,该基准测试由于其庞大的状态空间而提出了探索性挑战。作者选择 DrQv2 算法作为基础 RL 方法。采用相同的摄像头配置,并将奖励标准化为 1。同时,表 1 中总结了所有探索方法在六个 MetaWorld 任务中的成功率和所需步骤,从而证明了 SI2E 的性能优势。

DMControl 实验对比


此外,该团队在 DMControl 套件中的连续控制任务中对 SI2E 框架进行了评估,同样选用了 DrQv2 算法作为基础智能体,该算法基于像素观察进行操作。为了更全面地比较,引入了 MADE 作为状态 - 动作探索基线。通过评估六个连续控制任务中所有探索方法的表现并记录在表 2 中,观察结果显示,SI2E 显著提高了每个 DMControl 任务的平均集奖励。




下图中对比了 SI2E 和最佳基线的样本效率。这些结果不仅展示了 SI2E 在获取与动态相关的状态 - 动作表示方面的有效性,还突显了其激励智能体探索状态 - 动作空间的潜力。



为了更好地理解 SI2E 框架的合理性和优势,下图提供了 SI2E 表征结果与探索行为的可视化实验:(a) 基于结构互信息原理的表示学习可视化,(b) 通过最大化价值条件结构熵实现智能体探索的可视化。



消融实验


通过对 MetaWorld 和 DMControl 任务进行消融实验,作者专注于研究 SI2E 框架中嵌入原则和内在奖励机制这两个关键组成部分的影响。关注了两个不同变体:(i) SI2E-DB,利用 DB 瓶颈来学习状态 - 动作表示,(ii) SI2E-VCSE,采用最先进的 VCSE 方法来计算内在奖励。结果显示,如下图所示,SI2E 在最终性能和样本效率方面均优于所有变体,这表明这些关键组件在赋予 SI2E 卓越能力方面起着重要作用。



结论及展望


作者提出了一种基于结构信息原理的新型智能体探索框架 SI2E。该框架定义了结构互信息,以有效捕获与环境动态相关的状态 - 动作表示。它最大化了以价值为条件的高维结构熵,以增强对于整个状态 - 动作空间更为有效的覆盖。同时,建立了 SI2E 与传统信息论探索方法之间的理论联系,凸显了该框架的合理性和优势。通过广泛的对比评估,与最先进的探索方法相比,SI2E 显著提高了最终性能和取样效率。作者未来的工作包括扩展编码树的高度和实验环境的范围。作者的目标是让 SI2E 在强化学习中保持一个强大和适应性强的工具,特别适合高维和稀疏奖励的环境。


篇幅原因,我们在本文中省略了诸多细节,更多细节可以在论文中找到。

2024-10-10 15:012

评论

发布
暂无评论

易周金融分析 | 互联网系小贷平台密集增资;上半年银行理财子公司综合评价指数发布

易观分析

金融 分析 易周金融

「控制反转」和「依赖倒置」,傻傻分不清楚?

蝉沐风

ioc 依赖倒置原则 DIP DI 控制反转

Python逆向之 eval 函数解析,看着一篇就会了,案例掌房

梦想橡皮擦

Python 爬虫 8月月更

HMS Core分析服务智能运营6.5.1版本上线

HarmonyOS SDK

Dapr在Java中的实践 之 服务调用

万猫学社

微服务 dapr Sidecar

STM32F103ZE+SHT30检测环境温度与湿度(IIC模拟时序)

DS小龙哥

8月月更

左益豪:用代码创造一个新世界|OneFlow U

OneFlow

实习 社区之星

Dapr在Java中的实践 之 环境准备

万猫学社

微服务 dapr Sidecar

Dapr在Java中的实践 之 状态管理

万猫学社

Java 微服务 dapr Sidecar

Java 在Word中合并单元格时删除重复值

在下毛毛雨

java; 合并单元格 删除重复值

Redis 定长队列的探索和实践

vivo互联网技术

redis 数据结构 消息队列 Lua脚本

面试突击72:输入URL之后会执行什么流程?

王磊

Java 面试

业务缓存之体系化设计与开发

Qunar技术沙龙

系统开发

Kubernetes资源编排系列之四: CRD+Operator篇

阿里云大数据AI技术

大数据 运维

数据库不推荐使用外键的9个理由!

TimeFriends

8月月更

PWA 应用 Service Worker 缓存的一些可选策略和使用场景

汪子熙

typescript 前端开发 angular Service Worker 8月月更

一文读懂配置管理(CM)

SEAL安全

企业安全 企业it安全 代码安全

鲲鹏开发者创享日2022:鲲鹏全栈创新 与开发者共建数字湖南

科技热闻

Spring(五、注解开发)

开源 8月月更

在SAP分析云里根据业务数据绘制词云(Word Cloud)

汪子熙

SaaS SAP 词云 8月月更 word-cloud

分分钟快速定制您的专属个性化软件应用——BizTool自动化工具简介

BizFree

软件开发 快速开发 低代码开发 个性化 应用开发

如何用建木CI构建前端E2E质量自查

Jianmu

DevOps 前端 持续集成 代码质量 自动化测试

使用类似搭积木的低代码开发方式进行 SAP API 开发

汪子熙

低代码 云平台 SAP 8月月更 low-code

5S软件就是将软件应用全维度简单化的软件系统

BizFree

k8s 敏捷开发 软件架构 高性能 快捷调试

开源一夏|Flutter实现搜索的三种方式

坚果

开源 OpenHarmony 8月月更

K8S之Flannel的vxlan网络模式初步源码解析

k8s flannel 签约计划第三季

自动驾驶中的SLAM

博文视点Broadview

语音聊天app开发——对用户更具吸引力的设计

开源直播系统源码

软件开发 语聊房 开源源码 语音直播系统 语音源码

开源一夏 | 牛plus,多层嵌套动态JSON该如何解析总结

知识浅谈

开源 8月月更

【LeetCode】受限条件下可到达节点的数目Java题解

Albert

LeetCode 8月月更

以技术御风险,护航云原生 | 同创永益 X 博云举办产品联合发布会

BoCloud博云

云计算 容器 云原生

如何解决智能体探索和利用行为之间的平衡问题?_AI&大模型_曾祥华_InfoQ精选文章