GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么

AlphaGo Zero 的启示:我们的创新究竟出了什么问题?

2017 年 12 月 10 日

我们很难不对人工智能产生深刻印象,甚至有点儿警惕。1997 年,当 IBM 的超级计算机“深蓝”(Deep Blue)击败了当时世界上最伟大的国际象棋选手加里·卡斯帕罗夫(Garry Kasparov)时,它还只是一件需要人类密切关照和指导的昂贵硬件设备。但如今,快速发展的人工智能已经在很多领域远超人类。

对计算机来说,围棋是一种比象棋更难掌握的游戏。然而,2016 年低调出现的 AlphaGo,经过短短几个月的训练后,就轻松地击败了世界上最好的围棋选手。今年 10 月,人工智能企业 DeepMind 推出了运行速度更快、使用硬件更少的 AlphaGo Zero。通过 72 小时的自我学习和训练,AlphaGo Zero 以 10 比 0 的佳绩打败了它的“前辈”AlphaGo。

这种令人震惊的进步速度,再次引发了人们对机器人将替代人类,导致人类大规模失业的焦虑。但部分人认为,这种焦虑毫无必要。因为 AlphaGo Zero 并不是我们创造新想法的典型方式,所以和它相关的生产力和技术进步没有意义。

我们知道,AlphaGo Zero 的先进之处在于完全从零开始,不需要参考人类的先验知识,更不需要任何历史棋谱的指引,完全依靠自我强化学习,左右互搏来增长棋艺,最终达到百战百胜。

这种思维方式和国际象棋、AlphaGo 等完全不同。此前,很多计算机先驱们都认为,国际象棋也许是个发展人工智能的有意义的领域,但这种期待最终落空了。

因为不管是围棋还是象棋,在上千年传承的过程中,虽然不断有新的突破,但整体的思维或套路依然离不开一个“赢”字。从优化角度来说,利用人类知识进行象棋学习会让机器掉入和人类思维一致的“陷阱”。

在这种情况下,“优化过程反而阻碍了进化”。这也是卡斯帕罗夫在其新书《深度思考》(Deep Thinking) 中所想要表达的观点。

正如卡斯帕罗夫所描述的那样,在国际象棋中,在优化思路的影响下,当机器发现通过牺牲皇后可以快速取得胜利,机器便得出结论:如果要赢,必须要牺牲掉皇后。这种认知模式虽然很实用,但问题是,我们的目的是改变世界,让机器更加智能化,而不是仅仅赢得一场国际象棋比赛。

AlphaGo Zero 这种从零开始的自我驱动的强化学习机制,使机器尝试了各种可能性,打破了基于人类知识的固化思维,反而获得了更优解。

从国际象棋到基础科学

但这不仅仅是一个关于国际象棋的警示故事。

这种结果导向的思维方式,不仅仅存在于计算机象棋中,在科学研究中也随处可见。比如为了更加快速地获得结果,研究人员选择了更实用的捷径,却忽略了更深入、值得冒更大风险去做的研究。对科学来说,如果仅仅只是关注获得“胜利”这一结果,往往会本末倒置,走入“死胡同”。

在类似思路的指引下,企业们正在减少对基础科学研究的投入。此前,企业们曾资助过许多重要的基础研究。在这些资金的帮助下,曾在索尼和 IBM 公司工作的江崎玲于奈 (Leo Esaki)、德州仪器公司 (Texas Instruments) 的杰克•基尔比 (Jack Kilby) 获得了诺贝尔物理学奖;通用电气公司的欧文·朗缪尔(Irving Langmuir)摘得了诺贝尔化学奖;而贝尔实验室更是诞生了数不清的诺贝尔奖得主。可以说,那是个企业们敢于投资基础科学的时代。

然而,这种情况已经变了。正如 Ashish Arora、Sharon Belenzon 和 Andrea Patacconi 三位经济学家的研究报告所显示的那样:企业们仍在大力投资创新,但重点放在了实际应用上,而非基础科学。基础研究则通常被外包给了更小的机构,后者的知识产权很容易被买卖。

在这个过程中,企业研究人员创造了更多的专利,但他们在学术期刊上却越来越不显眼。正如阿罗拉教授所说的那样,企业越来越关注开发,而不是研究,而大多数的基础研究最终也都是为了商业上的用处。

这种思维方式给研究带来的影响是,研究团队的规模越来越大,专业化的研究人员越来越多,研究成本也越来越昂贵,但新的想法反而越来越少了。因为在某个“明确目的”的指引下,研究者们从一开始就已经否定了其他的可能性。

KPI 陷阱

这种以结果为导向的思维方式,在现代企业中也有一种典型的表现方式,那就是 KPI 制度。

根据和君咨询合伙人袁卫平的定义,在现代企业中,KPI 主义是企业将短期财务指标(如利润和销售收入)作为关键绩效指标来考核公司高管,并层层向下分解,直至一线的运营维护、产品研发和市场开发人员。指标完成的结果要排序,排名和个人奖金紧密挂钩,并直接影响工资和职位晋升。财务指标完成不好,排名在后的员工,会受到训诫乃至解雇。这些被细化和分类的指标,最终是为了实现精确管理,对工作成果进行量化。

在这种完全以目标为导向的体系里,员工在焦虑和恐惧的支配下,在追随财富的原始欲望驱动下,有时会不择手段地完成相关指标。这种不择手段,可能是牺牲企业的信用,可能是牺牲产品的质量,最终都让 KPI 变成了一剂毒药。

2016 年,当百度因为“魏则西事件”遭遇史上最大的信任危机时,李彦宏在内部邮件中质问“为什么很多每天都在使用百度的用户不再热爱我们?为什么我们不再为自己的产品感到骄傲了?问题到底出在哪里?”

反省的结果是“因为从管理层到员工对短期 KPI 的追逐,企业价值观被挤压变形了,业绩增长凌驾于用户体验,简单经营替代了简单可依赖”,最终与用户渐行渐远。李彦宏更进一步警告,“如果失去了用户的支持,失去对价值观的坚守,百度离破产只有 30 天”。

而在百度之前,索尼常务董事就曾撰文称“绩效主义毁了索尼”;王石也曾在其微博中痛呼,“绩效主义像企业的脓包”,而小米,直接干脆就“抛弃了 KPI”。

除了对员工不择手段的担忧,在瞬息万变的互联网时代,仅仅只依靠某些量化指标来评判员工的工作量和勤奋程度,有时候并不合理。毕竟随着技术和市场的快速更迭,工作目标也会随之不断调整,在这种情况下,盲目苛求某些量化指标,反而会扼杀企业的创新能力或低估杰出员工的价值等。

比如,当公司以代码行数作为考核目标,可能会因此鼓励大量垃圾代码的产生,而错过了简洁优雅的优秀代码;如果以解决 Bug 的数量作为评判标准,可能会挫败优秀程序员的积极性。因为如果程序员因为修复自己项目的 Bug 数量多而受到赏识,估计就没有员工愿意一开始就写出完美无缺的代码了。诸如此类的例子不胜枚举。

在互联网时代,不可否认的是,企业们会有越来越多的情况,需要面对未知的场景,提出颠覆的观点,创造不曾存在的模式,开发全新的产品。那么,在这一切创新诞生之前,企业们应该以什么样的 KPI 去给自己的员工定性呢?是每个月提交报告,还是多做几个 ppt 呢?

正如资深 IT 人曹政所说的那样,KPI 的意义在于约束平庸的员工,以提升他们的执行力,而不能用于去规范优秀的人才。如果我们希望诞生“AlphaGo Zero”般的高级人才,如果我们想要不一样的创新,那么,首先要让人从既定的目标导向里解脱出来。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017 年 12 月 10 日 18:001500

评论

发布
暂无评论
发现更多内容

Vue3 Composition API如何替换Vue Mixins

志学Python

Vue Vue3 composition-api

2020-07-04-第五周学习总结

路易斯李李李

第五周作业

重新来过

java实现一致性 hash 算法

李广富

分布式缓存架构设计

李广富

架构师训练营第五周-总结

人世间

极客大学架构师训练营

【架构师训练营】第 5 周总结

花生无翼

极客大学架构师训练营

第五周总结

Geek_a327d3

week5-作业一致性HASH算法的JAVA实现

蒜泥精英

一致性哈希在分布式缓存上的实践

hellohuan

极客大学架构师训练营

week5-作业

蒜泥精英

采用负载均衡技术总结

superman

第五周作业

晨光

架构师 0 期 | 一致性 Hash 算法

刁架构

极客大学架构师训练营

架构师训练营第5周作业

R20114

《架构师训练营》第五周 命题作业

架构师训练营 -Week 05 命题作业

华乐彬

极客大学架构师训练营 作业 一致性Hash算法

分布式和异步的技术选型

拈香(曾德政)

缓存 分布式 极客大学架构师训练营 技术选型 异步

一致性hash算法

ashuai1106

极客大学架构师训练营

缓存总结

ashuai1106

架构师 极客大学架构师训练营

架构师训练营 - 第五周学习总结

hellohuan

极客大学架构师训练营

第五周命题作业

Geek_a327d3

架构师训练营 第五周 学习总结

亮灯

架构师训练营 第五周 学习心得

LiJun

第五周总结

晨光

架构师训练营 - 第五周 - 总结

sljoai

极客大学架构师训练营 第五周

第5周 技术选型:技术选型能力反映了架构师的综合水平(一)

陆不得

架构师训练营 第五周 【学习总结】

小K

架构师训练营第五周作业

hiqian

第五周感悟

路人

极客大学架构师训练营

深入学习一致性Hash

拈香(曾德政)

算法 极客大学架构师训练营 一致性Hash算法

DNSPod与开源应用专场

DNSPod与开源应用专场

AlphaGo Zero的启示:我们的创新究竟出了什么问题?-InfoQ