4 月 11 日,创新工场宣布南京国际人工智能研究院执行院长冯霁当选 IEEE 联邦学习标准制定委员会副主席,并预计 IEEE 联邦学习标准将于两年内推出。
针对联邦学习这一概念,业界有两种截然不同的看法,有人认为其萌芽初期就被边缘化,人也有人认为它堪称“深度学习 2.0”。联邦学习的作用是被夸大还是低估了?此外,创新工场人工智能工程院执行院长王咏刚还提出了一个有趣的观点,认为 AI 领域也存在一个“黑洞”,这究竟是何意?
冯霁当选 IEEE 联邦学习标准制定委员会副主席
创新工场宣布,创新工场南京国际人工智能研究院执行院长冯霁当选 IEEE 联邦学习标准制定委员会副主席。
IEEE,全称 Institute of Electrical and Electronics Engineers,即国际电气与电子工程师协会,是目前全球最大的非营利性专业技术学会。IEEE 下设的标准协会是世界领先的标准制定机构,其标准制定内容涵盖人工智能等前沿信息科技,以及通信、电力和能源等多个科技领域,对全球科技发展具有举足轻重的影响。目前,IEEE 标准协会已经制定了 900 多个现行工业标准,包括众所周知的有线与无线网络通信标准等。
创新工场冯霁团队在此次 IEEE 联邦学习标准制定过程中,承担了数据安全、系统安全、算法安全相关的技术规范制定工作,属于此次标准制定工作中的核心工作之一,做出突出贡献,因此冯霁当选 IEEE 联邦学习标准制定委员会副主席。
冯霁,目前担任创新工场南京国际人工智能研究院执行院长,在鲁棒性和安全性人工智能以及计算金融领域进行研究与落地工作,从整体上负责南京研究院的团队建设、科研拓展、应用研发、学术交流与合作等工作内容。师从南京大学周志华教授,专注于新型深度学习算法和理论的研究。其参与的深度森林系列研究,在学术界和工业界获得了较为广泛的关注和影响。现担任 IEEE 联邦学习标准制定委员会副主席,以及多个人工智能顶级会议包括 NeurIPS-19、AAAI-18、ICML-19 的程序委员,在数据驱动下的计算金融、金融时间序列分析、全栈式人工智能系统的搭建和技术人员的培训上有着丰富的经验。
标准制定过程
IEEE 联邦学习标准的制定过程是怎样的呢?
冯霁表示,IEEE 标准的制定过程,是在 IEEE 的指导下成立委员会,企业会员自主参与,共同拟定标准后投票通过,最后由 IEEE 官方正式发布,作用和影响在于对此技术达成国际共识,未来各家机构在开发针对数据隐私保护的人工智能系统时,可以有一个纲领性的指导文件。一个技术满足了某个具有公信力的国际标准,会更具有说服力。另外,这个标准也会帮助立法机构在涉及隐私保护的问题中提供技术参考。
目前各国随着数据隐私保护法律的出台,对此类技术的需求逐渐成为国际共识,一项重要的技术,需要一个国际标准进行规范和约束,如联邦学习技术可满足 GDPR 的要求。
中国研究者重要贡献
此外,冯霁表示国际标准需要多方共识共同决定,对中国企业提升话语权很有帮助,也有助于更多的国内企业尽早部署和研发具备隐私保护的人工智能系统。王咏刚也表示,联邦学习作为一个完整的技术框架,包含一整套基础架构的标准设计,和每一个环节承担不同功能的核心技术。
联邦学习技术最早诞生和萌芽时期,中国研究者就对其中的很多核心技术,做出了很多至关重要的贡献。比如,和数据安全分享时的加密技术相关的很重要的同态加密技术就有清华大学姚期智院士团队,以及清华大学姚班几位老师的重要贡献。港科大、微众银行的杨强老师更是主动倡导将联邦学习技术标准化,将国际、国内研究联邦学习的科研力量、工程力量组织在一起,共同讨论,共同制定标准。
数据隐私保护意义重大
未来,IEEE 联邦学习标准制定委员会将围绕联邦学习技术与相关的基础 AI 技术积极开展工作,大力推动 AI 时代下的隐私保护、数据安全、应用安全等领域的体系规范化和技术标准化,意义深远。
据冯霁透露,委员会初步预计将于 6 月 15 日在美国加州召开第二次委员会,届时国际各家机构将会进一步探讨标准的细节。
联邦学习
这个标准中的联邦学习是指什么呢?
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。
联邦学习被边缘化 VS. “深度学习 2.0”
联邦学习这一概念提出的时间不长,但现在有人把它称为“深度学习 2.0”。但另一方面,也有业内人士称,联邦学习在以前是特别边缘的一种机器学习技术,质疑这个词突然火起来炒作成分更大。联邦学习被称为“深度学习 2.0”是否被夸大?除了数据隐私保护,它还有哪些具体应用?
对此,冯霁否认了联邦学习是边缘技术这一说法,认为这是一种比较新的前沿技术,主要解决分布式框架下数据隐私保护的问题,换言之,如何在不分享数据的前提下,分享从数据中获得的知识,从应用角度来看具有很重要的意义。另外,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。
同时,王咏刚表示联邦学习与“深度学习”不是一个层面的概念,深度学习是机器学习算法的一种,是人工智能训练模型的方式之一。而联邦学习是一种机器学习模块之间的协同框架,从体系架构、交换标准、接口标准上,保证深度学习或其他机器学习技术可以在不同主体之间顺利、安全完成。此外,王咏刚还明确表示个人不喜欢这种提法,因为缺乏逻辑性。
AI 领域的“黑洞”效应
此外,创新工场人工智能工程院执行院长王咏刚还提到了一个有趣的观点,他表示自己在关注黑洞照片的发布会直播,而人工智能领域其实也有一个“黑洞”效应——训练数据越多、数据维度越丰富,就越容易得到好的人工智能模型;但数据往往分散在各个不同的拥有者那里。出于数据安全以及保护个人隐私的原因,数据拥有者无法将原始数据提供给第三方使用。数据就越来越被吸引到一个又一个局部的“黑洞”里,无法逃逸。
联邦学习就像一个安全的、友好的,既能保证黑洞之间顺利交换数据,又不破坏数据安全、个人隐私的“桥梁”,可以在两个或多个参与“黑洞”之间,训练出最好的模型,同时又不让黑洞之间互相暴露原始数据。这属于一种鱼与熊掌兼得的技术,未来发展和未来价值都特别值得关注。
未来,创新工场基于人工智能工程院的研发平台,也将进一步开拓人工智能前沿科技与真实商业场景的结合,通过广泛的科研合作、商业合作、高端 AI 人才培养等扎实工作,迎接 AI 商业化时代的到来。
IEEE 联邦学习标准应运而生
近年来,伴随人工智能技术的高速发展,数据安全和隐私保护问题成为业内关注的焦点。大数据是 AI 时代的核心“能源”。如何在 AI 时代既保障用户的个人数据隐私,又促进大数据协作和交换的顺利发展?如何面对数据带来的伦理道德挑战?怎样避免数据垄断的出现、打破数据孤岛的困境?……这些都是各大学术及行业会议上,中外专家学者不断讨论的重要议题。
一个简单的例子是:今天我们每个人都在手机上使用输入法,而输入法为了做到尽量精准,就要基于用户个人的输入习惯训练人工智能模型。传统方案难免要将用户个人输入的原始信息上传到云端进行统一训练,这一做法过度收集了用户隐私,使用户隐私面临被滥用的风险。而新兴的联邦学习技术可以在完成相同功能的情况下,做到只在用户的手机端访问用户个人输入信息,不上传任何隐私数据。手机端和服务端在保证隐私安全的情况下协同训练。
IEEE 联邦学习标准项目即将应运而生。目前,IEEE 联邦学习标准制定委员会正在制定这一标准,这是国际上首个针对人工智能协同技术框架订立标准的项目,由国际著名人工智能学者杨强教授领衔担任主席,对数字信任、科技向善的培育意义深远,为人工智能行业的进一步发展开辟新的道路。
应用场景
听起来,这个标准的制定意义重大,但是具体到日常生活中的应用,它还会这么“接地气”吗?
王咏刚和冯霁表示,IEEE 联邦学习标准将会在日常生活场景中发挥重要的作用,相信未来我们日常生活的方方面面都会有人工智能的影子。许多人工智能都需要利用不同数据源的聚合数据进行训练——这种场景下,联邦学习就像一个安全的道路网络,可以既满足人工智能的训练要求,又保障我们的个人隐私不被滥用,因为这个道路网络上跑的是无法还原到原始数据的加密信息。
比如如何在不采集单个学员的学习轨迹数据下,训练更智能的知识点推荐系统。
再如,学校有学生的学习过程的相关数据,课外的辅导机构有学生参加课外训练的相关数据,暑假夏令营有学生在夏令营里的学习过程的数据……这些数据其实都涉及到个人隐私,如果不进行加密或不在安全标准下进行聚合与交换,我们是无法在所有不同数据源上训练最能反映这个学生学习历程的人工智能模型的。但是在联邦学习的帮助下,我们就有可能建立起一个安全的共享机制,完全不交换原始隐私数据,只在加密的数据上进行聚合训练,就可以得出可以完整反映学生情况的 AI 模型,再利用这个模型为学生定制他未来的学习计划。
此外,未来用户的上网偏好、购物信息等隐私信息在联邦学习的支持下,可以只保存在自己的手机里,完全不上传到任何一个服务器或云端。同时,那些需要根据大量用户对某种商品的喜好来预测未来仓储、定价的电子商城、超市等,可以只根据无法还原到隐私的加密信息,训练出最好的预测模型,做到供应链管理的最优化,降低零售渠道成本,最终体现为用户可以用更便宜的价格买到更好的商品。
有望明年出台,多巨头已参与
但由于国际标准的制定需要进行很多细节的讨论,冯霁透露,按照正常进度,IEEE 联邦学习标准将在两年内推出。目前,IEEE 联邦学习标准项目需要解决的问题很多,包括技术的定义、分级、安全性等,每一次会议都需要投票通过,各方从各个角度对该技术的细节达成共识,因此耗时较长,预计两年内才会推出。
目前,已有 30 余个互联网巨头公司、政府单位、企业和高校参与到标准制定工作中,国内参与方包含中国电信、腾讯、京东、小米、微众银行、顺丰、平安一账通、招商金科、深圳市标准技术研究院、香港科技大学、香港理工大学等。
评论