写点什么

Kubeflow 使用 Kubernetes 进行机器学习

2019 年 11 月 18 日

Kubeflow使用Kubernetes进行机器学习

Kubeflow 是 Google 推出的基于 kubernetes 环境下的机器学习组件,通过 Kubeflow 可以实现对 TFJob 等资源类型定义,可以像部署应用一样完成在 TFJob 分布式训练模型的过程。本文简单的介绍了 Kubeflow 及其安装流程。


1 背景简介

在介绍 Kubeflow 之前, 先简单介绍下真正的机器学习模型服务上线都需要经历哪些阶段,如下图所示:



上图的每种颜色代表对一个阶段的处理,可以看出一个机器学习模型上线对外提供服务要经过:数据清洗验证,数据集切分, 训练,构建验证模型, 大规模训练,模型导出,模型服务上线, 日志监控等阶段。Tensorflow 等计算框架解决了最核心的部分问题,但是距离生产化,产品化,以及企业级机器学习项目开发,还有一段距离。比如: 数据收集, 数据清洗, 特征提取, 计算资源管理, 模型服务, 配置管理, 存储, 监控, 日志等等。


2 Kubeflow 核心组件简介

  • jupyter 多租户 NoteBook 服务

  • Tensorflow/[PyTorch] 当前主要支持的机器学习引擎

  • Seldon 提供在 Kubernetes 上对机器学习模型的部署

  • TF-Serving 提供对 Tensorflow 模型的在线部署,支持版本控制及无需停止线上服务,切换模型等功能

  • Argo 基于 Kubernetes 的工作流引擎

  • Ambassador 对外提供统一服务的网关(API Gateway)

  • Istio 提供微服务的管理,Telemetry 收集

  • Ksonnet Kubeflow 使用 ksonnet 来向 kubernetes 集群部署需要的 k8s 资源


Kubeflow 利用 Kubernetes 的优势

  • 原生的资源隔离

  • 集群化自动化管理

  • 计算资源(CPU/GPU)自动调度

  • 对多种分布式存储的支持

  • 集成较为成熟的监控,告警


将机器学习各个阶段涉及的组件以微服务的方式进行组合并以容器化的方式进行部署,提供整个流程各个系统的高可用及方便的进行扩展。



3 Kubeflow 部署安装

服务器配置

  • GPU 卡型号: Nvidia-Tesla-K80

  • 网卡: 千兆(注意:在进行对大数据集进行训练时,千兆的网卡会是瓶颈)


cephfs 服务配置

网卡:万兆(注意:通过 ceph 对数据存储时,ceph 集群需要与 Kubernetes 同机房,否则延迟会对加载数据集的影响非常高)


软件环境

  • kubernetes version: v1.12.2(注意: 需要安装 kube-dns)

  • kubeflow version: v0.3.2

  • jsonnet version: v0.11.2


安装 ksonnet


安装 Kubeflow


当上面的所有安装步骤都正常完成之后,先查看 kubeflow 在 kubernetes 集群 deployment 资源对象的启动状态:



通过状态我们发现现在服务启动正常,在查看下各个 deployment 下各个服务的 pod 的状态:



现在服务都是正常的,接下来让我们通过 Ambassador 来访问 kubeflow 部署到 k8s 集群中的各个组件。


访问 Kubeflow UIs

由于 Kubeflow 使用 Ambassador 作为 kubeflow 统一的对外网关,其它的内部服务都是通过使用它来对外提供服务。具体如下图所示:



接下来我们使用 kubectl 的 port-forwarding 来对 Ambassador Service 进行端口转发,在本地对 Kubeflow 进行访问:



通过浏览器进行本地 localhost:8080 访问:



通过 Kubeflow UIs 可以针对不同的功能进行使用,如使用 Jupyter Notebook 进行对应用的全过程计算:开发、文档编写、运行代码和展示结果。也可以访问 TF-operator 来对基于 Tensorflow 的模型进行多机多卡的分布式训练。



4 总结

现在国外的 Google,微软,亚马逊,Intel 以及国内的阿里云,华为云等等公司都在发力 Kubeflow,并结合 kubernetes 对多种机器学习引擎进行多机多卡的大规模训练,这样可以做到对 GPU 资源的整合,并高效的提高 GPU 资源利用率,及模型训练的效率。并实现一站式服务,将机器学习服务上线的整个 workflow 都在 Kubernetes 平台实现。减轻机器学习算法同学的其它学习成本,专心搞算法。这势必给 Devops 的同学带来更高的挑战。


关于文章介绍的服务组件太多,需要自行去深入了解了,就不详细介绍了。相信未来 Kubeflow 会发展的更好。


本文转载自公众号 360 云计算(ID:hulktalk)。


原文链接:


https://mp.weixin.qq.com/s/JndQnJW0n6PW4cD3fbilRg


2019 年 11 月 18 日 16:521858

评论

发布
暂无评论
发现更多内容

在滴滴和字节跳动干了 2 年后端开发,太真实…

程序员生活志

程序员 字节跳动 后端 滴滴 开发

Monorepo 原来像陈老师这么香!

admin

Centos6 内核升级

唯爱

架构师训练营 - 软件设计原则

Pontus

极客大学架构师训练营

架构师训练营第二周作业

sunnywhy

第二周作业

芒夏

极客大学架构师训练营

第二周总结

芒夏

极客大学架构师训练营

架构师训练营-第二章课程总结-软件设计&面向对象

而立

极客大学架构师训练营

带功能隔离的cache设计

Coder的技术之路

【架构训练营】第二周作业

Mr.hou

极客大学架构师训练营

软件设计原则-第二周总结

孙志平

深入理解MySQL索引

Simon郎

MySQL 索引

架构师训练营第二周总结

sunnywhy

Week2-总结

TiK

极客大学架构师训练营

嵌入SpreadJS,赋能计量器具检定信息化

Geek_Willie

SpreadJS 计量检定

英特尔发布提升计算效率的多种新方法:将在机器人、增强现实等领域广泛应用

最新动态

架构师训练营——第二周作业

jiangnanage

架构师训练营作业 (1)

孙志超

CVPR 2020 六小时教程上线!新视角生成的前沿方法

神经星星

人工智能 学习 计算机视觉 模式识别 教程

理解持续测试,才算理解DevOps

禅道项目管理

DevOps 测试 持续集成

依赖倒置原则

Coder的技术之路

软件设计原则 - 第二周作业

孙志平

依赖倒置原则联想

极客大学架构师训练营

架构设计篇之领域驱动设计(DDD)

小诚信驿站

领域驱动设计 DDD 架构设计 架构设计原则 刘晓成

java静态代理与动态代理

张瑞浩

第二周作业

南宫煌

极客大学架构师训练营

【架构训练营】第二周总结

Mr.hou

极客大学架构师训练营

Week2-作业

TiK

极客大学架构师训练营

架构师训练营-作业-2-架构设计原则

superman

架构师训练营第二周作业

好名字

极客大学架构师训练营 作业

Spring Web MVC 依赖倒置原则分析

Arvin

Kubeflow使用Kubernetes进行机器学习-InfoQ