写点什么

深度学习与大数据系统融合是 dead direction 吗?

  • 2020-12-01
  • 本文字数:1768 字

    阅读完需:约 6 分钟

深度学习与大数据系统融合是dead direction吗?

2016 年,人工智能以围棋冠军的身份进入了人们的视野,有关深度学习的研究也遍地开花,其中有一个方向颇为小众:深度学习与大数据系统融合。如今四年过去了,这一领域一直不为业内所关注,甚至少有成果展示。那么在这样的前提下,坚持在深度学习与大数据系统融合领域的探究是否还有意义呢?


为了寻找答案,InfoQ 专门采访到了来自腾讯互娱增值服务部的专家研究员——李立,作为人工智能领域的专家,他对该研究方向的现状与前景有着自己的一番见解。李老师也将在 2020 年 12 月 6-7 日的 QCon 全球软件开发大会(深圳站)“人工智能前沿方向与落地实践“专题中,带来《深度学习和大数据系统融合的思考和应用》的演讲,进一步分享他和团队在深度学习与大数据系统融合方向未来的思考和探索。

深度学习为何要与大数据系统结合?


“大数据是作为深度学习的基础而存在的。”李立说,这是指“大数据系统中数据是深度学习的数据养料,没有大数据系统的海量数据,很多深度学习模型都会陷入过拟合的状态”。


众所周知,人工智能的发展不能离开三大要素:数据、算法、算力。这其中,数据是非常重要的基础,也正因如此,A+B+C(即:AI+大数据+云计算)的模式能成为了不少企业发展人工智能的标准配备。


大数据系统和深度学习训练系统通常是分开独立的两套系统。大数据系统中的数据,通过 IO 转移到深度学习训练系统,然后进行训练。


但是,为深度学习设置单独的集群,会迫使开发人员为机器学习流程创建多个程序。拥有独立的集群需要在它们之间传递大型数据集,从而引起不必要的系统复杂性和端到端的学习延迟


因此,深度学习和大数据系统融合是将两套系统打通,具体来说,就是深度学习模型在大数据系统集群上进行训练。


在深度学习风靡的 2017 年,有不少企业都在深度学习和大数据系统融合的方向上进行过探索。


最著名的项目是 Yahoo ! 研究院开源的 TensorFlow On Spark 项目。


2017 年 2 月 13 日,雅虎宣布开源 TensorFlowOnSpark ,该项目为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 的显着特征,TensorFlowOnSpark 能够方便地实现分布式深度学习。


随后也有一些公司推出了类似的工具,比如:2019 年 6 月 28 日,阿里巴巴也推出了 Flink-AI-Extended,结合了 TensorFlow 和 Flink,旨在为用户提供了更方便有用的工具。


但是,在工业界和学术界,这个方向可以说是相当小众,甚至有失败。李立说,杀手级的落地场景更是一个都没有。对此,他表示:“我们对这个方向思考的一个结论就是,深度学习和大数据系统融合全面支持不同类型深度学习是不现实的,必须给这个方向找准合适的场景。”

深度学习和大数据融合融合是 Dead direction?


“从当前的现状来看,深度学习和大数据系统融合,是一个 dead direction(死胡同) 了。”李立这样告诉 InfoQ。


李立进一步解释道,之所以这样说,一方面是因为 Kubernetes 已经逐渐成熟,当前主流做法是基于 K8S 搭建深度学习分布式训练集群;另一方面是因为,深度学习和大数据融合,因为大数据集群缺少对 GPU 成熟的调度能力,并不是很适合训练自然语言处理、计算机视觉和音频处理领域相关的计算密集型的模型。


不过,他补充说:“话虽如此,但重新定位和重新选择路线,深度学习和大数据系统融合还是能找到自己的价值。”


如果这个方向真能找到自己的价值,会加速大数据系统进一步完善其 GPU 调度能力。李立认为,目前 Spark、Storm 和 Flink 的 GPU 调度能力都相对不成熟,而且这方面的进展不快。其中原因就是没有太大的场景需要大数据系统有成熟的 GPU 调度能力。但一旦深度学习和大数据融合有比较大的价值的话,大数据系统进一步发展其 GPU 调度能力,就有了充足的理由和需求。

结语


深度学习与大数据系统融合虽然已经发展多年,但目前仍热并不被工业界的实践所接受,有人认为该方向已经是 dead direction,但是李立及其团队却依旧发掘了一些新的可能。想要了解更多详细信息,可以来QCon深圳现场与李老师进行更深入的交流。


大会召开在即,扫码图中二维码或点击这里可查看大会日程。会议咨询:17310043226(同微信)


采访嘉宾简介


李立,腾讯互动娱乐增值服务部专家研究员,毕业于北京大学计算机系,丰富技术研发经历,主要研究领域包括机器学习、推荐系统和游戏 AI Bot 等,参与和负责多个国家课题项目,发表多篇学术论文和拥有多项技术发明专利。


2020-12-01 11:471712
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 275.4 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

学习 View 事件分发,就像外地人上了黑车!(1),kotlin安卓开发书籍

android 程序员 移动开发

字节跳动面试,第三面挂了,这原因我服了,快速上手

android 程序员 移动开发

字节面试官:看了3000多份简历,面试1000场后,androidjni开发书籍

android 程序员 移动开发

实现Flutter离线验证码组件,跳槽面试大厂被拒

android 程序员 移动开发

字节跳动最新开源!超实用的UI轮子库,我只是个轮子搬运工

android 程序员 移动开发

字节码插桩--你也可以轻松掌握,2021年Android工作或许更难找

android 程序员 移动开发

字节跳动+京东+360(1),Android工程师必备知识

android 程序员 移动开发

字节跳动厂内部超高质量Flutter+Kotlin笔记!技术与实战篇

android 程序员 移动开发

字节跳动技术整理:Android-Camera内存问题剖析,为什么Flutter能最好地改变移动开发

android 程序员 移动开发

学习 View 事件分发,就像外地人上了黑车!,真的已经讲烂了

android 程序员 移动开发

安卓指纹对称加密及登录功能的实现(1),技术实现

android 程序员 移动开发

安卓指纹对称加密及登录功能的实现,阿里P8大牛从零开始教Android开源框架

android 程序员 移动开发

字节三面:ButterKnife为什么执行效率为什么比其他注入框架高?它的原理是什么

android 程序员 移动开发

巧用Android网络通信技术,在网络上直接传输对象,android设计模式总结

android 程序员 移动开发

巧用Android网络通信技术,在网络上直接传输对象 (1),安卓面试题宝典app

android 程序员 移动开发

学习不系统学过的Android知识全忘记了?思维导图+手写笔记

android 程序员 移动开发

对标小程序 _ _快应用_开发入门指南,移动应用开发课程设计

android 程序员 移动开发

屌丝的眼泪,因为错过的初恋,才搞清楚PNG图片压缩原理(1)

android 程序员 移动开发

字节码插桩--你也可以轻松掌握(1),收割快手,字节,百度,美团的Offer之旅

程序员 移动开发

完美!腾讯技术官发布Android零基础就业宝典,不用再怀疑人生了

android 程序员 移动开发

孽缘啊,同套面试题中午我把你挂了,晚上你把我挂了,农民工看完都会了

android 程序员 移动开发

屌丝的眼泪,因为错过的初恋,才搞清楚PNG图片压缩原理

android 程序员 移动开发

巧用Android网络通信技术,在网络上直接传输对象(1),讲的真详细

android 程序员 移动开发

小厂开发五年,成功入职腾讯,这是我的复盘和总结,阿里P8Android架构师谈

android 程序员 移动开发

学会这些Android开发热门前沿知识,2020年你就不用愁了!

android 程序员 移动开发

安卓11重磅上线,快来看看,是不是熟悉的配方,大专生面试阿里P7居然过了

android 程序员 移动开发

字节跳动正式启动2021届秋季校招!这份字节跳动历年校招Android面试真题解析,你确定不收藏

android 程序员 移动开发

字节跳动1面Too simple2面怀疑人生,宅家修炼“65天,flutter开源项目集合

android 程序员 移动开发

工作出现瓶颈,学习效率下降?通学这份Android进阶知识体系

android 程序员 移动开发

巧用Android网络通信技术,在网络上直接传输对象(2),android开发入门基础教程

android 程序员 移动开发

字节跳动+京东+360,字节跳动+京东+美团+腾讯面试总结

android 程序员 移动开发

深度学习与大数据系统融合是dead direction吗?_AI&大模型_陈思_InfoQ精选文章