Caicloud Clever 是才云 Caicloud 基于自身云容器技术打造的人工智能云平台,从硬件资源管理到模型高效开发,再到模型的自动部署,Caicloud Clever 可以贯穿企业 AI 应用开发的整个过程,为用户提供一站式、高效、易用的开发与交付体验。新年伊始,才云 Caicloud 隆重推出 Caicloud Clever v1.3.0,为 AI DevOps 开启开发、生产无缝衔接的新篇章。目前,Caicloud Clever 已经在餐饮、能源、金融、通信等行业的龙头企业有成功落地经验,助力企业服务数亿中国人。
现如今,人工智能在学术界和工业界屡现重大突破,而 Kubernetes 作为一个容器编排平台,也在短短几年间迎来了迅速崛起。在许多专家看来,它们的结合似乎可以为企业业务创新带来无限的可能性——智慧城市、联网汽车、智慧医疗……它们不仅为企业提供了利用技术抢占未来市场的机遇,也为整个社会接入智慧文明提供了初步尝试。
但是,开发、部署机器学习产品也意味着大规模的复杂性,以下图某 500 强企业的供应链预测项目为例:
某 500 强企业供应链预测
可以发现,模型训练代码只是很小的一部分,企业在开发过程中还需对海量数据进行预处理,对模型进行持续评估,并进行迭代更新。而除去复杂的开发环节,企业还要兼顾开发进度监控和最实际的落地部署,这些都对传统操作系统提出了严峻挑战。
事实上,这也是业界看好 Kubernetes 和 AI “联姻”的原因。容器为流程运行提供了紧凑的环境,它们易于扩展,能在各种环境中移植——从开发到测试再到生产——可以将大型完整应用程序分解为有针对性、易于维护的微服务,完美契合 AI 应用开发的各个阶段。
针对以上背景,基于 Kubernetes 的人工智能云平台 Caicloud Clever 在即将发布的 1.3.0 版本中做了大量优化,新增 AI DevOps 支持,致力于解决企业 AI 模型开发、上线的诸多痛点。
亮点一:精准化资源调度
AI 产品本质上是由数据驱动的,为了保证模型的准确度和鲁棒性,海量计算资源不可或缺。但鉴于计算资源成本高昂,企业也在迫切寻找高效合理利用资源的有效解决方案。
得益于 Caicloud Compass 强大的资源管理能力(基于 Kubernetes 原生能力优化),Caicloud Clever 可以自动按需调度包括 GPU 在内的计算资源,让用户在无需关注物理资源的情况下托管训练任务、应用服务等。它还支持基于 Workspace 的资源隔离,允许用户针对不同项目、团队定制 Workspace 资源,按策略最大化资源利用率。
亮点二:模块化开发集成
除了计算资源,AI 产品开发的挑战还在于需要将许多不同的软件库集合在一起,也就是构建完整的软件生态系统。针对这方面的需求,Caicloud Clever 也做了大量优化,提供多种预定义任务模板,支持多语言多框架开发环境,大大降低了企业进入门槛:
支持一键托管 Jupyter 等开发环境;
Caicloud Clever Jupyter 预置 TensorFlow、PyTorch、MXNet、Caffe 等框架;
支持 Python、Shell 等脚本开发及自定义开发环境;
开发环境可与任务模块关联,用户可从任务模块直接进入对应开发环境;
Caicloud Clever 细粒度引导,方便工程师快速上手训练。
亮点三:版本化数据运维
对于机器学习/深度学习模型的“粮食”——数据,Caicloud Clever 提供数据仓库、模型仓库等集装式版本化数据管理,进一步简化了数据的调用、共享方式,让数据能以更有效的方式在 AI 模块中流动。
在任务模块,用户可以通过点选把目标数据集用于数据清洗或训练;在模型仓库中, 各类模型可以按版本快速部署;在工程流中,Caicloud Clever 也提供按条件更新服务的支持。真正实现了 AI 流程中的各个模块以数据相互连接。
亮点四:可视化训练管理
而为了方便算法科学家、服务运维者、项目管理者等不同角色从不同角度审视任务表状态,把控任务进度。Caicloud Clever 支持可视化创建 TensorFlow、PyTorch 等框架的分布式多卡集群训练任务,支持实时训练日志及 GPU 等资源实时监控。保障项目的顺利进行和按时完成,促进团队合作。
亮点五:工程化 AI 全流程安排
考虑到 AI 产品开发涉及多个步骤,每个步骤所需的技能各异。Caicloud Clever 以工程流图连接模块、数据以及人,提高团队协作力及工程效率,加速工程化。
在 Caicloud Clever 平台上,用户可以创建从数据清洗、模型训练到模型服务等不同阶段的任务模块,涵盖 AI 全流程。工程师、科学家可以在任务模块上进行开发,架构师、项目经理可自由编排 AI 模块至工程流图,快速将功能模块拼接成工程项目。
亮点六:自动化生产部署
此外,Caicloud Clever 也支持工程流图一键式发布为生产流水线,所见即所得,无缝衔接 AI 工程开发与生产落地。用户可基于工程流图持续迭代开发,在不同迭代发布不同版本的流水线,流水线按条件触发流图流程,实现 AI 工程实验到生产的自动化部署。
把握创新机遇 敏态成就商机
随着 AI 技术和云计算的蓬勃发展,Kubernetes 愈发呈现出向上支持高并发、数据类和 AI 类应用业务的趋势——越来越多的公司正在把 Kubernetes 作为运行其工作负载的平台,而 AI 类业务正是一项日益重要的工作负载。
面对变化,寻找方向迈出第一步往往是最难的。AI 为企业提供了降低运营成本、改善决策和服务客户的新形式,而像 Caicloud Clever 这样基于 Kubernetes 的平台,势必会成为帮助企业采用 AI 和机器学习的首选协同平台。所以,你选好你的第一步了吗?
本文转载自才云 Caicloud 公众号。
原文链接:https://mp.weixin.qq.com/s/9oXPreWEC3-lavImR0J-kQ
评论