HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

强化学习能否在 2020 年取得突破?

  • 2020-01-21
  • 本文字数:2036 字

    阅读完需:约 7 分钟

强化学习能否在2020年取得突破?

强化学习对于实现我们的人工智能/机器学习技术的目标来说至关重要,但现在我们还有一些障碍需要克服。尽管可靠性和减少训练数据的目标在一年内就可能实现,但是,强化学习本质上是一种“黑盒”解决方案,其缺乏透明度的特性会带来很多质疑。


传统的机器学习乃至深度学习的监督及非监督学习,是企业目前在人工智能/机器学习领域进行大量投资并从中获取回报的核心领域。但事实是, 这些技术目前已经相当成熟,收益曲线也日趋平坦。


如果我们要在人工智能/机器学习领域寻找下一个突破技术,那么几乎可以肯定的是,这个突破将来自强化学习。在强化学习领域需要投入大量的努力,但是平心而论,强化学习还没有达到必要的标准化水平,尚不足以成为为商用化准备就绪的工具。


在游戏领域已经有相当多值得报道的成功案例(如 Alpha Go),在无人驾驶领域也有一些成功案例。但尽管在解决涉及系列决策的问题时,强化学习应该是我们的首选技术,可它还没有达到我们所需要的水平。



在我们的上一篇文章中,我们强调了两个阻碍强化学习的缺点,这正是微软强化学习领域的首席研究员 Romain Laroche 所描述的:


  • “它们基本上是不可靠的。更糟糕的是,由于强化学习过程中的随机性,使用不同随机种子的两次运行的结果可能非常不同。”

  • “它们需要数十亿的样本才能获得结果,而在现实世界的应用中提取如此天量的样本是不可行的。”


我们专注于一些有希望的研究,这些研究用少得多的数据、有限的财务投入和实际约束解决了训练问题。然而,剩下的问题甚至更加复杂。


由于强化学习解决方案是用随机种子启动的,因此,它们本质上是对状态空间的随机搜索。设想一下,两个启动算法随机进入这个潜在解决方案的巨大丛林,目标是找到最快的出路。尽管这两个解决方案可能达到相同的性能级别,但是,强化学习是众所周知的黑盒,它使我们无法了解系统为何及如何选择执行这一系列步骤。


Gartner 最近的报告《2020年10大战略技术趋势》中提到的两个互相矛盾的目标,突显了其重要性。


引起我们注意的两个趋势是:


趋势 8:智能设备(Autonomous things)


“智能设备,包括无人机、机器人、船舶和家用电器,利用人工智能代替人类完成任务。该技术在半智能到完全智能的智能范围内运作,并能在包括天空、海洋和陆地等各种各样的环境中运作。智能设备也将从独立的设备向协作的集群转变,例如在 2018 年冬季奥运会上使用的无人机群。”


该报告没有提到的是,要实现这一点将需要强大而可靠的强化学习。尽管有一些非常震撼人的机器人(想想 Boston Dynamics 公司吧)主要依靠物理运动的算法,而不是人工智能/机器学习技术,但行业需要强化学习才能走进下一个发展阶段。


而第 2 个趋势对强化学习来说将更加困难。


趋势 5:透明度和可追溯性


“技术的发展正在制造信任危机。随着消费者越来越关注自身信息被收集和使用的情况,各种组织也意识到存储和收集这些数据时所肩负的责任越来越大。”


“此外,人工智能和机器学习越来越多地用于代替人类做出决策,从而演变出信任危机,并推动了对可解释的人工智能和人工智能治理等理念的需求。”


尽管我们很可能想到 GDPR 以及围绕着电子商务的隐私问题,但事实是,基于我们对人工智能/机器学习如何做出决策的理解,这些技术终将受到挑战。


尤其是考虑到强化学习政策制定的随机性,以及两个成功的强化学习程序可以以完全不同的方式实现相同的目标,这将是一个难以克服的挑战。

应对可靠性问题

Romain Laroche 提出了两种技术,有望解决可靠性问题。在其论文中,一个使用集成方法(EBAS),而另一个使用调整微调参数条件风险值(Conditional value at Risk,简称 CvaR,即最差运行的平均值),这两种技术都能提高性能并减少训练时间,同时限制强化学习运行的自然趋势,以在系统中找到及利用故障。如果实际投入生产,该系统可以导致成功的结果,但是包含某种形式的意外损害。后一种技术以 SPIBB 命名,SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的缩写,即具有基线引导的安全策略改进。


该集成方法借鉴了机器学习中的相同概念,并且与遗传算法选择训练过程中的搜索过程类似,从而得到了一些很好的结果。



EBAS 算法学习速度更快,而且最终性能没有任何下降。

透明度?

我们似乎正在解决可靠性问题以及另一个海量训练数据的需求问题。这无疑将把我们引向透明度问题。比如,无人驾驶汽车在发生人员伤亡后所受到的审查。对比人类操作人员犯错,我们对机器犯错的容忍度更低。


毫无疑问,强化学习将在 2020 年做出重大贡献,但是,想要实现一个经过验证的,商业上得到接受的方案所面临的障碍,以及由于其缺乏透明性而带来的阻力等问题,不太可能在一年内完全解决。


作者介绍:


Bill 是 Data Science Central 的特约编辑。他还是 Data-Magnum 的总裁兼首席数据科学家。自 2001 年以来,他一直从事数据科学家的工作。其文章的阅读量已经超过了 2 百万次。


可以通过 Bill@DataScienceCentral.com 或 Bill@Data-Magnum.com 联系他。


原文链接:


Can Reinforcement Learning Break Through in 2020


2020-01-21 12:005379
用户头像
蔡芳芳 InfoQ主编

发布了 799 篇内容, 共 548.7 次阅读, 收获喜欢 2789 次。

关注

评论

发布
暂无评论
发现更多内容

面试官说:你来设计一个短链接生成系统吧

秦怀杂货店

Java 系统架构 系统 短链接

【Redis集群原理专题】分析一下相关的Redis集群模式下的脑裂问题!

洛神灬殇

redis 分布式系统脑裂 集群 脑裂 12月日更

全方位认识 JVM

Ayue、

内容合集 技术专题合集

音视频学习合集

Fenngton

内容合集 签约计划第二季

浅谈Linux线程模型

lecury

Linux 线程 经验分享、

Linux内核技术分享

lecury

内容合集 签约计划第二季

MySQL探秘(四):InnoDB的磁盘文件及落盘机制

程序员历小冰

MySQL 文件读写 28天写作 12月日更

程序员写作模版献给懵逼的你

jerry

浅谈Linux虚拟文件系统

lecury

Linux 文件系统 经验分享、

JVM性能调优之内存优化与GC优化实战

Ayue、

JVM jvm调优 技术专题合集

乔布斯家app下架上架杂记

张老蔫

28天写作

浅谈Linux进程模型

lecury

Linux 进程 经验

浅谈Linux Cgroups机制

lecury

Linux Cgroups 经验分享、

操作系统:Linux下的防火墙

程序员架构进阶

Linux 操作系统 防火墙 Firewalld 12月日更

了解 JVM 的方法调用

Ayue、

JVM 技术专题合集

纯css实现117个Loading效果(下)

德育处主任

css3 大前端 纯CSS css特效

音视频实战(1)- 音频质量关键指标之QoE

liuzhen007

签约计划第二季

域控安全之域渗透

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

流处理引擎Flink:编程 - 程序结构

正向成长

浅谈Linux内存管理

lecury

Linux 内存管理 经验分享、

25个带有酷炫动画的创意404错误页面,快给你的网站换上吧(持续更新)

海拥(haiyong.site)

大前端 28天写作 404 签约计划第二季 12月日更

自定义 View:绘制垂直正弦函数

Changing Lin

12月日更

如何在 ASP.NET Core 中重写 URL

喵叔

28天写作 12月日更

Git进阶(七): 打标签

No Silver Bullet

git 学习 12月日更

Flink 实践教程-入门(9):Jar 作业开发

腾讯云大数据

flink 流计算 Oceanus

眼耳鼻舌身意,严肃地聊一聊元宇宙的“技术拼图”

脑极体

升级【爸爸程序员】了?用Python给自己的宝贝下载200+绘本动画吧!

梦想橡皮擦

12月日更

给弟弟的信第2封|关于时间管理这件事

大菠萝

28天写作

Arthas阿里开源的Java诊断工具

Ayue、

JVM 技术专题合集

「架构实战营」模块一作业

Vincent

「架构实战营」

JVM 性能诊断工具

Ayue、

JVM 技术专题合集

强化学习能否在2020年取得突破?_文化 & 方法_Bill Vorhies_InfoQ精选文章