南洋理工安波：强化学习仍在起步阶段，并不能解决所有问题-InfoQ

「如何实现流动式软件发布」线上课堂开课啦，快来报名参与课堂抽奖吧~ 了解详情 



 写点什么

登录/注册

南洋理工安波：强化学习仍在起步阶段，并不能解决所有问题

6 月 21 日，由北京智源人工智能研究院主办的 2020 北京智源大会正式开幕（直播入口： https://2020.baai.ac.cn ），大会为期四天，各主题论坛和分论坛将围绕如何构建多学科开放协同的创新体系、如何推进人工智能与经济社会发展深度融合、如何建立人工智能安全可控的治理体系、如何与各国携手开展重大共性挑战的研究与合作等一系列当下最受关注的问题进行交流和探讨。
在智源大会第四天（6 月 24 日) 上午的强化学习专题论坛上，来自南洋理工大学的安波教授进行了题为《竞争环境下的强化学习》的演讲，分享了他本人及团队有关强化学习的研究和理解。
以下内容根据安波的演讲整理，未经本人确认。

解决 AI 竞争的两种方法

算法博弈

安波教授首先分享了有关博弈论和强化学习的内容。

当竞争出现的时候，可以靠博弈论来解决，很多 AI 功能的背后也都有博弈论的身影，目前有两种主流的观点：基于算法的，又叫算法博弈论；另一种就是强化学习。

用基于算法博弈的技术解决 AI 问题，其难度跟 AlphaGo 一样复杂，比如扑克游戏，要解决特别大规模的优化问题，首先要解决很多算法问题。

因此，可以通过抽象来解决一些问题，虽然这样的技术跟深度学习无关，但也恰恰说明深度学习、强化学习并不能解决所有问题。

此外，安波教授表示，DeepRL（深度强化学习）技术没有十分确定的保障，有时候利用算法优化得到的结果比 RL 的效果还要好。

安波教授举了一个德州扑克游戏的案例对问题进一步说明。

过去七八年的中，有不少机构和组织对这一问题发起挑战，即：基于多人的德扑挑战，但实际上，这些技术本身并没有任何进展，只不过是扩展双人德扑游戏的技术而已。

安波说，解决多人德扑问题的第一步，是将参与者分为两个队伍，即一个人对多个人，在这样的前提下实现的效果会更好。

随后，安波教授分享了一些他所在的团队在算法博弈方面的工作进展。

针对大规模的问题，要找到有效的算法来应对大规模博弈，当情况变成 Team-Maximin 时候，很多方法都没有用了。

因此在博弈的时候，可能会多尝试一些方法，试着从回应里去学习一些东西，以达到最好的效果。

可是在竞争环境里，这样的方法是很危险的，有可能会被利用、误导，得到比较差的结果，所以需要找到一个更加健壮的学习算法。

所以安波教授与团队也在研究，当对手采取攻击手段的时候，如何取得好的结果。

强化学习

什么时候需要强化学习？安波教授的分享中提到了如下四点：

问题不能被很好的定义（model）；
大规模问题；
问题本质上完全不能被传统技术优化；
没有可以解释的结构。

在这些情况下，可以优先考虑使用强化学习。

近些年来，有关强化学习的研究也越来越热，安波教授也认为：这是一个欣欣向荣的领域，也诞生出了一些热门的算法，比如近年来得到广泛关注的 VDN，QMIX，QTRAN 等方法。

之后，安波教授也分享了团队在强化学习领域的研究进展。比如：复杂的桥牌竞争问题，这一方法的研究有跟 AlphaGo 类似的地方。

此外，强化学习还可以帮助电商平台制定策略，优化目标。比如，有人利用漏洞刷单，则可以利用强化学习制定惩罚机制，防止刷单；或者侦测是否出现刷单的攻击，并通过此方法来提升鲁棒性等等。

在公路电子收费中，也可以看到强化学习发挥作用。传统算法采用的是固定的价格，但安波教授表示，考虑到很多时候道路情况是不断变化的，因此可以采用动态 ERP 的方法。

强化学习还能够帮助政府和公司指定策略，安教授及其团队也在这一方面有所研究，下图所示的一些论文就是部分研究成果。

结语

在演讲的最后，安波教授认为，未来的 AI 要考虑更多复杂环境下的问题，有竞争、有合作，所以要分布式地解决。强化学习对于解决某些问题可能会很有效，但是仍在起步阶段，还有很多挑战需要去解决，比如在解决的时候，没办法把基于优化的技术应用在其中，因此还有很大的上升空间。

评论

发布

暂无评论

OpenFeign和Consul爱恨交织的两天

Spring Cloud Consul OpenFegin spring 5

DataPipeline CPO 陈雷：实时数据融合之道，博观约取，价值驱动

DataPipeline数见科技

一致性hash算法

Istio 1.8 发布——用户至上的选择

开源云原生 Service Mesh istio

DataPipeline CPO 陈雷：实时数据融合之法，稳定高容错

DataPipeline数见科技

公众号高频被调整，它不是企业生产文章的机器

客户数据平台 CDP 私域流量

区块链数字钱包系统开发方案,区块链钱包APP源码

粉丝求助：JAVA程序员，4年了，很迷茫，希望前辈可以给指出一个技术路线和需掌握的知识技能树；

Java架构师迁哥

MySQL主从数据库没有同步怎么办？

MySQL 数据库分布式微服务

架构师训练营第九周作业

极客大学架构师训练营

UNISKIN COO Kevin|营销数字化：数据沉淀和数据系统化运营一定要趁早！

营销数字化客户数据平台 CDP

深入理解h2和r2dbc-h2

程序那些事

响应式编程 R2DBC 程序那些事响应式架构 r2dbc-h2

DataPipeline CPO 陈雷：实时数据融合之法，便捷可管理

DataPipeline数见科技

面试题总结--HashMap、Volatile相关

区块链社交即时通许系统开发,区块链社交app开发价格

架构师训练营第九周作业

极客大学架构师训练营第九周作业

合约跟单源码案例,合约跟单模式开发

微信官方将打击恶意营销号：自媒体不可过度消费粉丝

面试官问：如何排除GC引起的CPU飙高？我脱口而出5个步骤

《JAVA多线程设计模式》.pdf

京东开发4年，想要跳槽去拼多多，落泪四4面，这年头跳槽可真难啊（还好不是裸辞）

架构面试编程语言 Java 面试 java架构师

亚马逊全球百万钜惠引爆“黑五” 跨境狂欢“巅峰6日”震撼登场

深入浅出 Go - sync.Map 源码分析

数字货币交易所开发有哪些模式？区块链交易平台

万字图文 | 聊一聊 ReentrantLock 和 AQS 那点事（看完不会你找我）

龙台的技术笔记

架构 AQS ReentrantLock JUC CLH

11月阿里Spring全家桶+MQ微服务架构笔记：源码+实战

Java 学习程序员面试微服务

强化学习入门必看之强化学习导识

人工智能学习

阿里作为内部参考的Redis文档现在开放下载，姐夫半夜不睡都在看

Java redis 学习编程面试

如何在 vuePress中添加博客导流公众号-即输入验证码解锁全站文章

vuepress 解锁文章博客引流建站

甲方日常 54

工作随笔杂谈日常

深入浅出 Go - sync.Once 源码分析