写点什么

深度学习与大数据系统融合是 dead direction 吗?

  • 2020-12-01
  • 本文字数:1768 字

    阅读完需:约 6 分钟

深度学习与大数据系统融合是dead direction吗?

2016 年,人工智能以围棋冠军的身份进入了人们的视野,有关深度学习的研究也遍地开花,其中有一个方向颇为小众:深度学习与大数据系统融合。如今四年过去了,这一领域一直不为业内所关注,甚至少有成果展示。那么在这样的前提下,坚持在深度学习与大数据系统融合领域的探究是否还有意义呢?


为了寻找答案,InfoQ 专门采访到了来自腾讯互娱增值服务部的专家研究员——李立,作为人工智能领域的专家,他对该研究方向的现状与前景有着自己的一番见解。李老师也将在 2020 年 12 月 6-7 日的 QCon 全球软件开发大会(深圳站)“人工智能前沿方向与落地实践“专题中,带来《深度学习和大数据系统融合的思考和应用》的演讲,进一步分享他和团队在深度学习与大数据系统融合方向未来的思考和探索。

深度学习为何要与大数据系统结合?


“大数据是作为深度学习的基础而存在的。”李立说,这是指“大数据系统中数据是深度学习的数据养料,没有大数据系统的海量数据,很多深度学习模型都会陷入过拟合的状态”。


众所周知,人工智能的发展不能离开三大要素:数据、算法、算力。这其中,数据是非常重要的基础,也正因如此,A+B+C(即:AI+大数据+云计算)的模式能成为了不少企业发展人工智能的标准配备。


大数据系统和深度学习训练系统通常是分开独立的两套系统。大数据系统中的数据,通过 IO 转移到深度学习训练系统,然后进行训练。


但是,为深度学习设置单独的集群,会迫使开发人员为机器学习流程创建多个程序。拥有独立的集群需要在它们之间传递大型数据集,从而引起不必要的系统复杂性和端到端的学习延迟


因此,深度学习和大数据系统融合是将两套系统打通,具体来说,就是深度学习模型在大数据系统集群上进行训练。


在深度学习风靡的 2017 年,有不少企业都在深度学习和大数据系统融合的方向上进行过探索。


最著名的项目是 Yahoo ! 研究院开源的 TensorFlow On Spark 项目。


2017 年 2 月 13 日,雅虎宣布开源 TensorFlowOnSpark ,该项目为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 的显着特征,TensorFlowOnSpark 能够方便地实现分布式深度学习。


随后也有一些公司推出了类似的工具,比如:2019 年 6 月 28 日,阿里巴巴也推出了 Flink-AI-Extended,结合了 TensorFlow 和 Flink,旨在为用户提供了更方便有用的工具。


但是,在工业界和学术界,这个方向可以说是相当小众,甚至有失败。李立说,杀手级的落地场景更是一个都没有。对此,他表示:“我们对这个方向思考的一个结论就是,深度学习和大数据系统融合全面支持不同类型深度学习是不现实的,必须给这个方向找准合适的场景。”

深度学习和大数据融合融合是 Dead direction?


“从当前的现状来看,深度学习和大数据系统融合,是一个 dead direction(死胡同) 了。”李立这样告诉 InfoQ。


李立进一步解释道,之所以这样说,一方面是因为 Kubernetes 已经逐渐成熟,当前主流做法是基于 K8S 搭建深度学习分布式训练集群;另一方面是因为,深度学习和大数据融合,因为大数据集群缺少对 GPU 成熟的调度能力,并不是很适合训练自然语言处理、计算机视觉和音频处理领域相关的计算密集型的模型。


不过,他补充说:“话虽如此,但重新定位和重新选择路线,深度学习和大数据系统融合还是能找到自己的价值。”


如果这个方向真能找到自己的价值,会加速大数据系统进一步完善其 GPU 调度能力。李立认为,目前 Spark、Storm 和 Flink 的 GPU 调度能力都相对不成熟,而且这方面的进展不快。其中原因就是没有太大的场景需要大数据系统有成熟的 GPU 调度能力。但一旦深度学习和大数据融合有比较大的价值的话,大数据系统进一步发展其 GPU 调度能力,就有了充足的理由和需求。

结语


深度学习与大数据系统融合虽然已经发展多年,但目前仍热并不被工业界的实践所接受,有人认为该方向已经是 dead direction,但是李立及其团队却依旧发掘了一些新的可能。想要了解更多详细信息,可以来QCon深圳现场与李老师进行更深入的交流。


大会召开在即,扫码图中二维码或点击这里可查看大会日程。会议咨询:17310043226(同微信)


采访嘉宾简介


李立,腾讯互动娱乐增值服务部专家研究员,毕业于北京大学计算机系,丰富技术研发经历,主要研究领域包括机器学习、推荐系统和游戏 AI Bot 等,参与和负责多个国家课题项目,发表多篇学术论文和拥有多项技术发明专利。


2020-12-01 11:471728
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 276.8 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

深入浅出 Go - sync.Map 源码分析

helbing

Go 语言

Istio 1.8 发布——用户至上的选择

Jimmy Song

开源 云原生 Service Mesh istio

公众号高频被调整,它不是企业生产文章的机器

Linkflow

客户数据平台 CDP 私域流量

架构师训练营第九周作业

我是谁

极客大学架构师训练营

深入理解h2和r2dbc-h2

程序那些事

响应式编程 R2DBC 程序那些事 响应式架构 r2dbc-h2

强化学习入门必看之强化学习导识

Alocasia

人工智能 学习

区块链数字钱包系统开发方案,区块链钱包APP源码

13530558032

合约跟单源码案例,合约跟单模式开发

13530558032

架构师训练营第九周作业

_

极客大学架构师训练营 第九周作业

OpenFeign和Consul爱恨交织的两天

编号94530

Spring Cloud Consul OpenFegin spring 5

MySQL主从数据库没有同步怎么办?

冰河

MySQL 数据库 分布式 微服务

Scrum指南这么改,我看要完蛋!

华为云开发者联盟

Scrum 敏捷 改版

UNISKIN COO Kevin|营销数字化:数据沉淀和数据系统化运营一定要趁早!

Linkflow

营销数字化 客户数据平台 CDP

微信官方将打击恶意营销号:自媒体不可过度消费粉丝

石头IT视角

面试官问:如何排除GC引起的CPU飙高?我脱口而出5个步骤

田维常

cpu飙满

万字图文 | 聊一聊 ReentrantLock 和 AQS 那点事(看完不会你找我)

马丁玩编程

架构 AQS ReentrantLock JUC CLH

DataPipeline CPO 陈雷:实时数据融合之道,博观约取,价值驱动

DataPipeline数见科技

数据融合

11月阿里Spring全家桶+MQ微服务架构笔记:源码+实战

小Q

Java 学习 程序员 面试 微服务

阿里达摩院副院长亲自所写Java架构29大核心知识体系+大厂面试真题+微服务

Java架构追梦

Java 学习 阿里巴巴 架构 面试

快进收藏吃灰!字节跳动大佬用最通俗方法讲明白了红黑树算法

小Q

Java 学习 架构 面试 算法

DataPipeline CTO 陈肃:构建批流一体数据融合平台的一致性语义保证

DataPipeline数见科技

数据融合

DataPipeline CPO 陈雷:实时数据融合之法,便捷可管理

DataPipeline数见科技

数据融合

接口测试学习之json

测试人生路

json 接口测试

一致性hash算法

天涯若海

DataPipeline CPO 陈雷:实时数据融合之法,稳定高容错

DataPipeline数见科技

数据融合

媲美物理机,裸金属云主机如何轻松应对11.11大促

京东科技开发者

云计算 容器 服务器 云主机

《JAVA多线程设计模式》.pdf

田维常

多线程

Springboot过滤器和拦截器详解及使用场景

996小迁

Java 编程 架构 面试 springboot

深入浅出 Go - sync.Once 源码分析

helbing

Go 语言

数字货币交易所开发有哪些模式?区块链交易平台

13530558032

区块链社交即时通许系统开发,区块链社交app开发价格

13530558032

深度学习与大数据系统融合是dead direction吗?_AI&大模型_陈思_InfoQ精选文章