AlphaGo Zero的启示：我们的创新究竟出了什么问题？-InfoQ

GTLC全球技术领导力峰会·上海站，首批讲师正式上线！了解详情 



 写点什么

我们很难不对人工智能产生深刻印象，甚至有点儿警惕。1997 年，当 IBM 的超级计算机“深蓝”（Deep Blue）击败了当时世界上最伟大的国际象棋选手加里·卡斯帕罗夫（Garry Kasparov）时，它还只是一件需要人类密切关照和指导的昂贵硬件设备。但如今，快速发展的人工智能已经在很多领域远超人类。

对计算机来说，围棋是一种比象棋更难掌握的游戏。然而，2016 年低调出现的 AlphaGo，经过短短几个月的训练后，就轻松地击败了世界上最好的围棋选手。今年 10 月，人工智能企业 DeepMind 推出了运行速度更快、使用硬件更少的 AlphaGo Zero。通过 72 小时的自我学习和训练，AlphaGo Zero 以 10 比 0 的佳绩打败了它的“前辈”AlphaGo。

这种令人震惊的进步速度，再次引发了人们对机器人将替代人类，导致人类大规模失业的焦虑。但部分人认为，这种焦虑毫无必要。因为 AlphaGo Zero 并不是我们创造新想法的典型方式，所以和它相关的生产力和技术进步没有意义。

我们知道，AlphaGo Zero 的先进之处在于完全从零开始，不需要参考人类的先验知识，更不需要任何历史棋谱的指引，完全依靠自我强化学习，左右互搏来增长棋艺，最终达到百战百胜。

这种思维方式和国际象棋、AlphaGo 等完全不同。此前，很多计算机先驱们都认为，国际象棋也许是个发展人工智能的有意义的领域，但这种期待最终落空了。

因为不管是围棋还是象棋，在上千年传承的过程中，虽然不断有新的突破，但整体的思维或套路依然离不开一个“赢”字。从优化角度来说，利用人类知识进行象棋学习会让机器掉入和人类思维一致的“陷阱”。

在这种情况下，“优化过程反而阻碍了进化”。这也是卡斯帕罗夫在其新书《深度思考》(Deep Thinking) 中所想要表达的观点。

正如卡斯帕罗夫所描述的那样，在国际象棋中，在优化思路的影响下，当机器发现通过牺牲皇后可以快速取得胜利，机器便得出结论：如果要赢，必须要牺牲掉皇后。这种认知模式虽然很实用，但问题是，我们的目的是改变世界，让机器更加智能化，而不是仅仅赢得一场国际象棋比赛。

AlphaGo Zero 这种从零开始的自我驱动的强化学习机制，使机器尝试了各种可能性，打破了基于人类知识的固化思维，反而获得了更优解。

从国际象棋到基础科学

但这不仅仅是一个关于国际象棋的警示故事。

这种结果导向的思维方式，不仅仅存在于计算机象棋中，在科学研究中也随处可见。比如为了更加快速地获得结果，研究人员选择了更实用的捷径，却忽略了更深入、值得冒更大风险去做的研究。对科学来说，如果仅仅只是关注获得“胜利”这一结果，往往会本末倒置，走入“死胡同”。

在类似思路的指引下，企业们正在减少对基础科学研究的投入。此前，企业们曾资助过许多重要的基础研究。在这些资金的帮助下，曾在索尼和 IBM 公司工作的江崎玲于奈 (Leo Esaki)、德州仪器公司 (Texas Instruments) 的杰克•基尔比 (Jack Kilby) 获得了诺贝尔物理学奖；通用电气公司的欧文·朗缪尔（Irving Langmuir）摘得了诺贝尔化学奖；而贝尔实验室更是诞生了数不清的诺贝尔奖得主。可以说，那是个企业们敢于投资基础科学的时代。

然而，这种情况已经变了。正如 Ashish Arora、Sharon Belenzon 和 Andrea Patacconi 三位经济学家的研究报告所显示的那样：企业们仍在大力投资创新，但重点放在了实际应用上，而非基础科学。基础研究则通常被外包给了更小的机构，后者的知识产权很容易被买卖。

在这个过程中，企业研究人员创造了更多的专利，但他们在学术期刊上却越来越不显眼。正如阿罗拉教授所说的那样，企业越来越关注开发，而不是研究，而大多数的基础研究最终也都是为了商业上的用处。

这种思维方式给研究带来的影响是，研究团队的规模越来越大，专业化的研究人员越来越多，研究成本也越来越昂贵，但新的想法反而越来越少了。因为在某个“明确目的”的指引下，研究者们从一开始就已经否定了其他的可能性。

KPI 陷阱

这种以结果为导向的思维方式，在现代企业中也有一种典型的表现方式，那就是 KPI 制度。

根据和君咨询合伙人袁卫平的定义，在现代企业中，KPI 主义是企业将短期财务指标（如利润和销售收入）作为关键绩效指标来考核公司高管，并层层向下分解，直至一线的运营维护、产品研发和市场开发人员。指标完成的结果要排序，排名和个人奖金紧密挂钩，并直接影响工资和职位晋升。财务指标完成不好，排名在后的员工，会受到训诫乃至解雇。这些被细化和分类的指标，最终是为了实现精确管理，对工作成果进行量化。

在这种完全以目标为导向的体系里，员工在焦虑和恐惧的支配下，在追随财富的原始欲望驱动下，有时会不择手段地完成相关指标。这种不择手段，可能是牺牲企业的信用，可能是牺牲产品的质量，最终都让 KPI 变成了一剂毒药。

2016 年，当百度因为“魏则西事件”遭遇史上最大的信任危机时，李彦宏在内部邮件中质问“为什么很多每天都在使用百度的用户不再热爱我们？为什么我们不再为自己的产品感到骄傲了？问题到底出在哪里？”

反省的结果是“因为从管理层到员工对短期 KPI 的追逐，企业价值观被挤压变形了，业绩增长凌驾于用户体验，简单经营替代了简单可依赖”，最终与用户渐行渐远。李彦宏更进一步警告，“如果失去了用户的支持，失去对价值观的坚守，百度离破产只有 30 天”。

而在百度之前，索尼常务董事就曾撰文称“绩效主义毁了索尼”；王石也曾在其微博中痛呼，“绩效主义像企业的脓包”，而小米，直接干脆就“抛弃了 KPI”。

除了对员工不择手段的担忧，在瞬息万变的互联网时代，仅仅只依靠某些量化指标来评判员工的工作量和勤奋程度，有时候并不合理。毕竟随着技术和市场的快速更迭，工作目标也会随之不断调整，在这种情况下，盲目苛求某些量化指标，反而会扼杀企业的创新能力或低估杰出员工的价值等。

比如，当公司以代码行数作为考核目标，可能会因此鼓励大量垃圾代码的产生，而错过了简洁优雅的优秀代码；如果以解决 Bug 的数量作为评判标准，可能会挫败优秀程序员的积极性。因为如果程序员因为修复自己项目的 Bug 数量多而受到赏识，估计就没有员工愿意一开始就写出完美无缺的代码了。诸如此类的例子不胜枚举。

在互联网时代，不可否认的是，企业们会有越来越多的情况，需要面对未知的场景，提出颠覆的观点，创造不曾存在的模式，开发全新的产品。那么，在这一切创新诞生之前，企业们应该以什么样的 KPI 去给自己的员工定性呢？是每个月提交报告，还是多做几个 ppt 呢？

正如资深 IT 人曹政所说的那样，KPI 的意义在于约束平庸的员工，以提升他们的执行力，而不能用于去规范优秀的人才。如果我们希望诞生“AlphaGo Zero”般的高级人才，如果我们想要不一样的创新，那么，首先要让人从既定的目标导向里解脱出来。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

发布

暂无评论

DNSPod与开源应用专场

创作场景

AlphaGo Zero 的启示：我们的创新究竟出了什么问题？

评论

Vue3 Composition API如何替换Vue Mixins

2020-07-04-第五周学习总结

第五周作业

java实现一致性 hash 算法

分布式缓存架构设计

架构师训练营第五周-总结

【架构师训练营】第 5 周总结

第五周总结

week5-作业一致性HASH算法的JAVA实现

一致性哈希在分布式缓存上的实践

week5-作业

采用负载均衡技术总结

第五周作业

架构师 0 期 | 一致性 Hash 算法

架构师训练营第5周作业

《架构师训练营》第五周命题作业

架构师训练营 -Week 05 命题作业

分布式和异步的技术选型

一致性hash算法

缓存总结

架构师训练营 - 第五周学习总结

第五周命题作业

架构师训练营第五周学习总结

架构师训练营第五周学习心得

第五周总结

架构师训练营 - 第五周 - 总结

第5周技术选型：技术选型能力反映了架构师的综合水平（一）

架构师训练营第五周【学习总结】

架构师训练营第五周作业

第五周感悟

深入学习一致性Hash

创作场景

AlphaGo Zero 的启示：我们的创新究竟出了什么问题？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载