写点什么
vivo AI计算平台搭建实战

vivo AI计算平台搭建实战

策划: 赵钰莹

2018 年底,vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。经过两年的持续迭代,平台建设和落地取得了很大进展,成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主,到现在演进成包含 VTraining、VServing、VContainer 三大模块,对外提供模型训练、模型推理和容器化能力。

vivo AI 计算平台轩辕文件存储缓存的设计与应用
vivo AI 计算平台轩辕文件存储缓存的设计与应用

本文将分享轩辕文件存储缓存的设计原理以及在 Vtraining 平台的性能加速应用。

vivo AI 计算平台的K8s分级配额管理实践
vivo AI 计算平台的 K8s 分级配额管理实践

K8s 提供了原生的 ResourceQuota 资源配额管理功能,但随着平台资源使用场景越来越复杂逐渐暴露出各种问题。

vivo AI计算平台的轩辕文件存储实践
vivo AI 计算平台的轩辕文件存储实践

vivo AI 计算平台是在 2018 年底开始着手建设的,致力于解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点。

vivo AI计算平台kubernetes集群弹性伸缩实践
vivo AI 计算平台 kubernetes 集群弹性伸缩实践

本文聚焦于 kubernetes 集群 Pod 级别的弹性伸缩实践和落地。

vivo AI计算平台的ACK混合云实践
vivo AI 计算平台的 ACK 混合云实践

本文是 vivo AI 计算平台实战系列文章之一,主要分享了平台在混合云建设的实践。

vivo AI 计算平台云原生自动化实践
vivo AI 计算平台云原生自动化实践

本文主要分享了 VContainer 云原生相关基础组件的自动化实践,从半工具化人工维护,到白屏化流程的实践和落地。

vivo AI计算平台的监控高可用方案
vivo AI 计算平台的监控高可用方案

本文主要分享了 VContainer 的监控高可用方案的选型和部署实践,以及各种踩坑经验。

vivo AI计算平台弹性分布式训练的探索和实践
vivo AI 计算平台弹性分布式训练的探索和实践

本文分享了 vivo AI 计算平台在 Kubernetes 集群进行弹性分布式训练的实践心得。

vivo AI 计算平台的K8s填坑指南
vivo AI 计算平台的 K8s 填坑指南

在 2018 年底,vivo AI 研究院为了解决统一的高性能训练环境、大规模的分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。

vivo AI计算平台在线业务落地实践
vivo AI 计算平台在线业务落地实践

为了支撑公司 AI 在线业务的发展,满足公司对算力资源的高效调度管控需求,需要将在线业务,主要包括 C 端、推理等业务,由原来的虚拟机或物理机迁移至 AI 容器平台。

Kube-batch在vivo AI计算平台的应用
Kube-batch 在 vivo AI 计算平台的应用

由于 K8s 原生调度器存在诸多问题,vivo 决定采用批调度器 kube-batch,本文讲解了整个团队 kube-batch 实践历程和解决的问题。

vivo手机背后的一站式机器学习平台架构实践
vivo 手机背后的一站式机器学习平台架构实践

InfoQ 有幸采访了 vivo AI 研究院的资深算法工程师鲁文龙,详细了解 vivo 在机器学习平台方面的实践。

vivo AI计算平台 Kubernetes集群Ingress网关实践
vivo AI 计算平台 Kubernetes 集群 Ingress 网关实践

基于在线业务的需求对 AI 容器平台进行进一步建设,并将平台与公司的 CMDB、CICD 等基础模块进行打通,使在线业务能够顺利从虚拟机、物理机迁移至 AI 容器平台。

没有更多了
vivo AI计算平台搭建实战_技术洞察_技术趋势_大厂实践_InfoQ精选专题