在QCon北京2019大会上,刘勋讲师做了《Apache Hadoop 机器学习引擎 Submarine 及生态》主题演讲,主要内容如下。
演讲简介:
Submarine 是 Hadoop 和 Zeppelin 社区联合开发的机器学习平台,支持 Tensorflow, Pytorch 等机器学习框架以单机或着分布式的方式运行在 Kubernetes 和 YARN 中。
在 Zeppelin 中进行可视化等交互式算法开发,模型训练作业提交,模型发布和工作流编排,通过 Zeppelin Spark Interpreter 进行数据加工处理,通过 Zeppelin Flink Interpreter 进行模型的在线推测和模型增量更新。
网易杭研大数据团队是 Hadoop Submarine 项目的主要贡献者之一,我们从零开始和社区一起构建 Submarine 的生态系统。现在你已经可以通过使用 Submarine-installer 你可以轻松的安装和部署 NVIDIA-Docker,ETCD,Calico 等这些机器学习运行环境,在 Zeppelin 中以可视化交互 Notebook 方式的进行 Spark 机器学习前的数据加工处理, 再进行 Tensorflow 的 Pythone 算法开发和验证,在 Zeppelin 中完成机器学习作业的数据处理和模型训练全链路的 Workflow 的编排,周期性的在 Kubernetes/Hadoop 中进行离线模型训练。 Submarine 的生态系统中所有代码和文档都已经开源,并合并进入 Hadoop 、Zeppelin 项目主干分支,让你可以零开发成本的搭建自己的机器学习开发平台。
听众受益
了解可以同时支持 Kubernetes 和 YARN 的机器学习平台项目 Submarine 的最新进展;
通过 Zeppelin 进行可视化交互式的机器学习算法开发的方法;
如何零成本的使用 Submarine 项目和配套的生态系统搭建自己的机器学习开发平台。
讲师介绍:
刘勋
网易杭州研究院 机器学习开发组负责人
刘勋,2001 年工作以来有着十七年的商业软件开发经验,其中四年互联网创业经历,五年大数据领域开发工作经验,Zeppelin Committer 和 Hadoop Contributor。
现任网易杭州研究院数据科学中心机器学习开发组负责人,主要从事网易猛犸大数据平台 Hadoop 和机器学习平台相关开发工作。
完整演讲 PPT 下载链接:
https://qcon.infoq.cn/2019/beijing/schedule
评论