2016 年,人工智能以围棋冠军的身份进入了人们的视野,有关深度学习的研究也遍地开花,其中有一个方向颇为小众:深度学习与大数据系统融合。如今四年过去了,这一领域一直不为业内所关注,甚至少有成果展示。那么在这样的前提下,坚持在深度学习与大数据系统融合领域的探究是否还有意义呢?
为了寻找答案,InfoQ 专门采访到了来自腾讯互娱增值服务部的专家研究员——李立,作为人工智能领域的专家,他对该研究方向的现状与前景有着自己的一番见解。李老师也将在 2020 年 12 月 6-7 日的 QCon 全球软件开发大会(深圳站)“人工智能前沿方向与落地实践“专题中,带来《深度学习和大数据系统融合的思考和应用》的演讲,进一步分享他和团队在深度学习与大数据系统融合方向未来的思考和探索。
深度学习为何要与大数据系统结合?
“大数据是作为深度学习的基础而存在的。”李立说,这是指“大数据系统中数据是深度学习的数据养料,没有大数据系统的海量数据,很多深度学习模型都会陷入过拟合的状态”。
众所周知,人工智能的发展不能离开三大要素:数据、算法、算力。这其中,数据是非常重要的基础,也正因如此,A+B+C(即:AI+大数据+云计算)的模式能成为了不少企业发展人工智能的标准配备。
大数据系统和深度学习训练系统通常是分开独立的两套系统。大数据系统中的数据,通过 IO 转移到深度学习训练系统,然后进行训练。
但是,为深度学习设置单独的集群,会迫使开发人员为机器学习流程创建多个程序。拥有独立的集群需要在它们之间传递大型数据集,从而引起不必要的系统复杂性和端到端的学习延迟。
因此,深度学习和大数据系统融合是将两套系统打通,具体来说,就是深度学习模型在大数据系统集群上进行训练。
在深度学习风靡的 2017 年,有不少企业都在深度学习和大数据系统融合的方向上进行过探索。
最著名的项目是 Yahoo ! 研究院开源的 TensorFlow On Spark 项目。
2017 年 2 月 13 日,雅虎宣布开源 TensorFlowOnSpark ,该项目为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 的显着特征,TensorFlowOnSpark 能够方便地实现分布式深度学习。
随后也有一些公司推出了类似的工具,比如:2019 年 6 月 28 日,阿里巴巴也推出了 Flink-AI-Extended,结合了 TensorFlow 和 Flink,旨在为用户提供了更方便有用的工具。
但是,在工业界和学术界,这个方向可以说是相当小众,甚至有失败。李立说,杀手级的落地场景更是一个都没有。对此,他表示:“我们对这个方向思考的一个结论就是,深度学习和大数据系统融合全面支持不同类型深度学习是不现实的,必须给这个方向找准合适的场景。”
深度学习和大数据融合融合是 Dead direction?
“从当前的现状来看,深度学习和大数据系统融合,是一个 dead direction(死胡同) 了。”李立这样告诉 InfoQ。
李立进一步解释道,之所以这样说,一方面是因为 Kubernetes 已经逐渐成熟,当前主流做法是基于 K8S 搭建深度学习分布式训练集群;另一方面是因为,深度学习和大数据融合,因为大数据集群缺少对 GPU 成熟的调度能力,并不是很适合训练自然语言处理、计算机视觉和音频处理领域相关的计算密集型的模型。
不过,他补充说:“话虽如此,但重新定位和重新选择路线,深度学习和大数据系统融合还是能找到自己的价值。”
如果这个方向真能找到自己的价值,会加速大数据系统进一步完善其 GPU 调度能力。李立认为,目前 Spark、Storm 和 Flink 的 GPU 调度能力都相对不成熟,而且这方面的进展不快。其中原因就是没有太大的场景需要大数据系统有成熟的 GPU 调度能力。但一旦深度学习和大数据融合有比较大的价值的话,大数据系统进一步发展其 GPU 调度能力,就有了充足的理由和需求。
结语
深度学习与大数据系统融合虽然已经发展多年,但目前仍热并不被工业界的实践所接受,有人认为该方向已经是 dead direction,但是李立及其团队却依旧发掘了一些新的可能。想要了解更多详细信息,可以来QCon深圳现场与李老师进行更深入的交流。
大会召开在即,扫码图中二维码或点击这里可查看大会日程。会议咨询:17310043226(同微信)
采访嘉宾简介
李立,腾讯互动娱乐增值服务部专家研究员,毕业于北京大学计算机系,丰富技术研发经历,主要研究领域包括机器学习、推荐系统和游戏 AI Bot 等,参与和负责多个国家课题项目,发表多篇学术论文和拥有多项技术发明专利。
评论