写点什么

强化学习能否在 2020 年取得突破?

  • 2020-01-21
  • 本文字数:2036 字

    阅读完需:约 7 分钟

强化学习能否在2020年取得突破?

强化学习对于实现我们的人工智能/机器学习技术的目标来说至关重要,但现在我们还有一些障碍需要克服。尽管可靠性和减少训练数据的目标在一年内就可能实现,但是,强化学习本质上是一种“黑盒”解决方案,其缺乏透明度的特性会带来很多质疑。


传统的机器学习乃至深度学习的监督及非监督学习,是企业目前在人工智能/机器学习领域进行大量投资并从中获取回报的核心领域。但事实是, 这些技术目前已经相当成熟,收益曲线也日趋平坦。


如果我们要在人工智能/机器学习领域寻找下一个突破技术,那么几乎可以肯定的是,这个突破将来自强化学习。在强化学习领域需要投入大量的努力,但是平心而论,强化学习还没有达到必要的标准化水平,尚不足以成为为商用化准备就绪的工具。


在游戏领域已经有相当多值得报道的成功案例(如 Alpha Go),在无人驾驶领域也有一些成功案例。但尽管在解决涉及系列决策的问题时,强化学习应该是我们的首选技术,可它还没有达到我们所需要的水平。



在我们的上一篇文章中,我们强调了两个阻碍强化学习的缺点,这正是微软强化学习领域的首席研究员 Romain Laroche 所描述的:


  • “它们基本上是不可靠的。更糟糕的是,由于强化学习过程中的随机性,使用不同随机种子的两次运行的结果可能非常不同。”

  • “它们需要数十亿的样本才能获得结果,而在现实世界的应用中提取如此天量的样本是不可行的。”


我们专注于一些有希望的研究,这些研究用少得多的数据、有限的财务投入和实际约束解决了训练问题。然而,剩下的问题甚至更加复杂。


由于强化学习解决方案是用随机种子启动的,因此,它们本质上是对状态空间的随机搜索。设想一下,两个启动算法随机进入这个潜在解决方案的巨大丛林,目标是找到最快的出路。尽管这两个解决方案可能达到相同的性能级别,但是,强化学习是众所周知的黑盒,它使我们无法了解系统为何及如何选择执行这一系列步骤。


Gartner 最近的报告《2020年10大战略技术趋势》中提到的两个互相矛盾的目标,突显了其重要性。


引起我们注意的两个趋势是:


趋势 8:智能设备(Autonomous things)


“智能设备,包括无人机、机器人、船舶和家用电器,利用人工智能代替人类完成任务。该技术在半智能到完全智能的智能范围内运作,并能在包括天空、海洋和陆地等各种各样的环境中运作。智能设备也将从独立的设备向协作的集群转变,例如在 2018 年冬季奥运会上使用的无人机群。”


该报告没有提到的是,要实现这一点将需要强大而可靠的强化学习。尽管有一些非常震撼人的机器人(想想 Boston Dynamics 公司吧)主要依靠物理运动的算法,而不是人工智能/机器学习技术,但行业需要强化学习才能走进下一个发展阶段。


而第 2 个趋势对强化学习来说将更加困难。


趋势 5:透明度和可追溯性


“技术的发展正在制造信任危机。随着消费者越来越关注自身信息被收集和使用的情况,各种组织也意识到存储和收集这些数据时所肩负的责任越来越大。”


“此外,人工智能和机器学习越来越多地用于代替人类做出决策,从而演变出信任危机,并推动了对可解释的人工智能和人工智能治理等理念的需求。”


尽管我们很可能想到 GDPR 以及围绕着电子商务的隐私问题,但事实是,基于我们对人工智能/机器学习如何做出决策的理解,这些技术终将受到挑战。


尤其是考虑到强化学习政策制定的随机性,以及两个成功的强化学习程序可以以完全不同的方式实现相同的目标,这将是一个难以克服的挑战。

应对可靠性问题

Romain Laroche 提出了两种技术,有望解决可靠性问题。在其论文中,一个使用集成方法(EBAS),而另一个使用调整微调参数条件风险值(Conditional value at Risk,简称 CvaR,即最差运行的平均值),这两种技术都能提高性能并减少训练时间,同时限制强化学习运行的自然趋势,以在系统中找到及利用故障。如果实际投入生产,该系统可以导致成功的结果,但是包含某种形式的意外损害。后一种技术以 SPIBB 命名,SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的缩写,即具有基线引导的安全策略改进。


该集成方法借鉴了机器学习中的相同概念,并且与遗传算法选择训练过程中的搜索过程类似,从而得到了一些很好的结果。



EBAS 算法学习速度更快,而且最终性能没有任何下降。

透明度?

我们似乎正在解决可靠性问题以及另一个海量训练数据的需求问题。这无疑将把我们引向透明度问题。比如,无人驾驶汽车在发生人员伤亡后所受到的审查。对比人类操作人员犯错,我们对机器犯错的容忍度更低。


毫无疑问,强化学习将在 2020 年做出重大贡献,但是,想要实现一个经过验证的,商业上得到接受的方案所面临的障碍,以及由于其缺乏透明性而带来的阻力等问题,不太可能在一年内完全解决。


作者介绍:


Bill 是 Data Science Central 的特约编辑。他还是 Data-Magnum 的总裁兼首席数据科学家。自 2001 年以来,他一直从事数据科学家的工作。其文章的阅读量已经超过了 2 百万次。


可以通过 Bill@DataScienceCentral.com 或 Bill@Data-Magnum.com 联系他。


原文链接:


Can Reinforcement Learning Break Through in 2020


2020-01-21 12:005399
用户头像
蔡芳芳 InfoQ主编

发布了 801 篇内容, 共 558.1 次阅读, 收获喜欢 2791 次。

关注

评论

发布
暂无评论
发现更多内容

华为云重磅参会 KubeCon China 2024,精彩议程揭晓 !

华为云原生团队

云计算 容器 云原生

全球化浪潮下的数据库革新:嘉里物流 TiDB 实践价值的设想

TiDB 社区干货传送门

HTAP 数据库在国有大行反洗钱场景的应用

TiDB 社区干货传送门

TiKV存储节点计划内外停机,如何去处理?

TiDB 社区干货传送门

故障排查/诊断 TiKV 底层架构 7.x 实践

谈一谈数据虚拟化的技术核心和应用架构

Aloudata

RP Data Fabric 逻辑数据编织

企业该怎么适应数字化转型?

优秀

数字化转型

火山引擎ByteHouse助力车企实现高性能数据分析

字节跳动数据平台

大数据 数据仓库 云原生 Clickhouse

从0到1:AI与低代码如何推动企业创新

天津汇柏科技有限公司

低代码 AI 人工智能

Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程

汀丶人工智能

人工智能 大模型 xinference

亚信安慧AntDB-M聚合下推—加速你的数据分析查询

亚信AntDB数据库

AntDB

​​万界星空科技低代码云mes,更适合中小企业的mes系统

万界星空科技

低代码 低代码平台 mes 云mes 万界星空科技

“JVM” 上的AOP:Java Agent 实战

阿里技术

Java spring 阿里 aop

Detailed comparison of MT7915 and MT7916 chips: Technical parameters and application scenario analysis

wifi6-yiyi

wifi

AI驱动的商品企划软件 零售企业市场致胜的智能化利器

第七在线

智谱AI与和鲸科技签署战略合作协议,共拓大模型产业应用与人才培养新未来

ModelWhale

人工智能 大模型 ChatGLM

更强模型、更低价格、更易落地,豆包大模型日均tokens使用量超5,000 亿,落地实践再进阶

新消费日报

1688代采集运系统:跨境电商世界的神奇魔法棒

tbapi

1688代采系统 1688代采集运系统

新增姿态估计标注,以及模型应用优化|ModelWhale 版本更新

ModelWhale

鉴权 模型应用 模型服务

Tipard Blu-ray Converter for Mac (蓝光视频转换软件) v10.0.72激活版

理理

【技术分享】用AWS EC2搭建WordPress

伊克罗德信息科技

亚马逊云科技 EC2 MYSCALE

sync-diff-inspector比对表结构,索引

TiDB 社区干货传送门

万亿城商行如何借助 TiDB 构建面向未来的金融核心系统

TiDB 社区干货传送门

实践案例

从 MySQL 迁移到 TiDB:使用 SQL-Replay 工具进行真实线上流量回放测试 SOP

TiDB 社区干货传送门

如何挑选最适合你的免费文档管理系统?

爱吃小舅的鱼

文档管理 免费

photoshop 运行弹窗This non-genuine Adobe app has been disabled 详细的解决方法

Rose

从供应商深度绑定,到走向真正的云原生,他们是这样做的

阿里云云效

阿里云 云原生 云效

数业智能心大陆 AI解答如何应对焦虑

心大陆多智能体

智能体 焦虑 AI大模型 心理健康 数字心理

TCL 实业 x TiDB丨从分销转向零售,如何考虑中台建设和数据库选型?

TiDB 社区干货传送门

体育赛况资讯直播app开发搭建部署

V\TG【ch3nguang】

体育赛况资讯直播app开发

简化工作流程:选择最佳项目管理系统的5大要点

爱吃小舅的鱼

从供应商深度绑定,到走向真正的云原生,他们是这样做的

阿里巴巴云原生

阿里云 云原生 云效

强化学习能否在2020年取得突破?_文化 & 方法_Bill Vorhies_InfoQ精选文章