2018 年底,vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。经过两年的持续迭代,平台建设和落地取得了很大进展,成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主,到现在演进成包含 VTraining、VServing、VContainer 三大模块,对外提供模型训练、模型推理和容器化能力。
本文将分享轩辕文件存储缓存的设计原理以及在 Vtraining 平台的性能加速应用。
K8s 提供了原生的 ResourceQuota 资源配额管理功能,但随着平台资源使用场景越来越复杂逐渐暴露出各种问题。
vivo AI 计算平台是在 2018 年底开始着手建设的,致力于解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点。
本文聚焦于 kubernetes 集群 Pod 级别的弹性伸缩实践和落地。
本文是 vivo AI 计算平台实战系列文章之一,主要分享了平台在混合云建设的实践。
本文主要分享了 VContainer 云原生相关基础组件的自动化实践,从半工具化人工维护,到白屏化流程的实践和落地。
本文主要分享了 VContainer 的监控高可用方案的选型和部署实践,以及各种踩坑经验。
本文分享了 vivo AI 计算平台在 Kubernetes 集群进行弹性分布式训练的实践心得。
在 2018 年底,vivo AI 研究院为了解决统一的高性能训练环境、大规模的分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。
为了支撑公司 AI 在线业务的发展,满足公司对算力资源的高效调度管控需求,需要将在线业务,主要包括 C 端、推理等业务,由原来的虚拟机或物理机迁移至 AI 容器平台。
由于 K8s 原生调度器存在诸多问题,vivo 决定采用批调度器 kube-batch,本文讲解了整个团队 kube-batch 实践历程和解决的问题。
InfoQ 有幸采访了 vivo AI 研究院的资深算法工程师鲁文龙,详细了解 vivo 在机器学习平台方面的实践。
基于在线业务的需求对 AI 容器平台进行进一步建设,并将平台与公司的 CMDB、CICD 等基础模块进行打通,使在线业务能够顺利从虚拟机、物理机迁移至 AI 容器平台。