IDC 发布的报告显示,2017 年大数据全球市场规模将达 324 亿美元,年复合增长率为 27%,其中市场增长最快的领域是数据存储领域(53.4%)。而 BBC 预测,人工智能市场 2020 年全球市场规模将达到 183 亿美元。
企业伴随着业务的发展会积累海量的数据,而如何利用这部分数据给企业再次创造价值已经成为目前各个大数据及 AI 行业所关注的重点。
对于结构化数据(表格及数据库等)和非结构化数据(图片音频等)的分析方法及工具选择也是多种多样的。而 TensorFlow 则由于其开源和功能强大等众多优点受到众多专家的追捧。并且开发者也热情高涨地积极贡献。
但 TensorFlow 的配置和使用非常复杂,尤其在分布式环境中。TensorFlow 本身的出发点是作为一个 AI 工具存在的,而要将其产品化则存在着诸多问题需要解决。
Supporting the Cloud Native Ecosystem
2017 年 3 月 29-30 日,由 CNCF 主办的 KubeCon 在柏林拉开序幕,才云(Caicloud)首席大数据科学家郑泽宇和云开源高级工程师赵慧智受邀在会上做 TensorFlow 运行在 Kubernetes 上的技术演讲,并和大家分享了在提供这一 TensorFlow as a Service(TaaS)的技术点实现方式及解决方案。
简单来说,才云在为企业提供大数据及 AI 解决方案的同时,还为大数据及 AI 的开发者和科研机构提供一个可以实现 TensorFlow 产品化的解决方案,尤其解决其在分布式环境系统中的诸多问题。
通过基于 Kubernetes 的 TensorFlow,并且在 Kubernetes 上支持 GPU 和可视化的 UI 封装,使得 TensorFlow 可以在其原有的功能不为损失的情况下,极大的简化和封装 TensorFlow 在分布式中遇到的诸多问题,在此之上提供更多的功能。
这次才云的演讲主要包括:
1、分布式 TensorFlow 在机器学习中的作用和发展
2、How to enable GPU on Kubernetes
3、TensorFlow On Kubernetes
4、TaaS (TensorFlow as a Service)
以下是具体演讲内容摘要:TensorFlow 虽然在国内外大型企业都已经得到了广泛的应用,但是在广大中小型 IT 企业以及传统企业中,要将其应用于生产环境却仍然存在挑战。
在单机环境下,即使使用目前最先进的 GPU 都无法满足其计算量的要求。而在集群环境下, TensorFlow 存在高门槛、难配置、难管理等问题。
如下图所示,传统的分布式 TensorFlow 没有把 CPU 跟 GPU 进行虚拟化。只能直接使用物理 GPU 资源,无法让利用率最大化。
传统分布式 TensorFlow 带来管理方面的难题,比如:训练任务队列,用户权限管理,集群管理,模型服务管理,模型自动部署,资源管理,训练任务调度等等。
如下图所示,当分布式系统使用 K8S 对 GPU 虚拟化后,原生的 K8S 对于 GPU 的支持很弱。
但是,通过才云的平台虚拟化后,可以对 GPU 进行更加灵活自由的调度使用, 从而提升深度学习任务的训练速度。
同时,才云两位大数据专家在大会上演示了 Caicloud 的 TaaS 界面:
而且,还从环境搭建,模型训练,监控管理及模型在线服务等板块把原生态 TensorFlow 跟 TaaS 平台的对比。
以下页面展示的是 TaaS 训练资源池里,可以支持多个用户,同时提交多个任务。通过这样的 TaaS 平台,我们可以任务管理,资源调度,任务状态监控,及任务优先级调度。最大化提升集群的资源使用率,及任务的执行效率。
最后,介绍了才云的产品平台:才云的 Caicloud 平台依托于物理机,虚拟机,微软云,AWS 云平台,阿里云平台,创建了 K8S 集群。在多个 K8S 集群之上,我们建立了 Caicloud CLaaS 容器集群管理平台,平台之上有:分布式深度学习平台 TaaS,CI/CD 工具 Cyclone,以及 Cargo。
在这次 KubeCon 中,才云专家与 OpenAI 及 Google GCE Manager 分别讨论了如何部署 TensorFlow on Kubernetes 及其技术点实现方式和 GPU 在 GCE 中的 upstream 现状和后续研发工作。
左起:Vicki Cheung、赵慧智、Jonas Schneider、郑泽宇
才云首席大数据科学家郑泽宇在柏林 KubeCon 上演讲
才云云开源高级工程师赵慧智在柏林 KubeCon 上演讲
本文转载自才云 Caicloud 公众号。
原文链接:https://mp.weixin.qq.com/s/jU19P3CNH2v_WdgflSMLRw
公众号推荐:
AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。
评论