vivo AI计算平台搭建实战_技术洞察_技术趋势_大厂实践_InfoQ精选专题

2018 年底，vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点，着手建设 AI 计算平台。经过两年的持续迭代，平台建设和落地取得了很大进展，成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主，到现在演进成包含 VTraining、VServing、VContainer 三大模块，对外提供模型训练、模型推理和容器化能力。

vivo AI 计算平台轩辕文件存储缓存的设计与应用

vivo AI 计算平台轩辕文件存储缓存的设计与应用

本文将分享轩辕文件存储缓存的设计原理以及在 Vtraining 平台的性能加速应用。

作者：彭毅格策划: 赵钰莹

2023-04-18

4742

vivo AI 计算平台的K8s分级配额管理实践

vivo AI 计算平台的 K8s 分级配额管理实践

K8s 提供了原生的 ResourceQuota 资源配额管理功能，但随着平台资源使用场景越来越复杂逐渐暴露出各种问题。

作者 : 刘东阳

2023-02-28

4366

vivo AI计算平台的轩辕文件存储实践

vivo AI 计算平台的轩辕文件存储实践

vivo AI 计算平台是在 2018 年底开始着手建设的，致力于解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点。

作者 : 彭毅格

2022-10-18

6857

vivo AI计算平台kubernetes集群弹性伸缩实践

vivo AI 计算平台 kubernetes 集群弹性伸缩实践

本文聚焦于 kubernetes 集群 Pod 级别的弹性伸缩实践和落地。

作者 : 王杰策划: 李冬梅

2021-12-08

3282

vivo AI计算平台的ACK混合云实践

vivo AI 计算平台的 ACK 混合云实践

本文是 vivo AI 计算平台实战系列文章之一，主要分享了平台在混合云建设的实践。

作者 : 刘东阳吴梓洋

2021-09-28

4454

vivo AI 计算平台云原生自动化实践

vivo AI 计算平台云原生自动化实践

本文主要分享了 VContainer 云原生相关基础组件的自动化实践，从半工具化人工维护，到白屏化流程的实践和落地。

作者 : 梁大钊

2021-05-18

2062

vivo AI计算平台的监控高可用方案

vivo AI 计算平台的监控高可用方案

本文主要分享了 VContainer 的监控高可用方案的选型和部署实践，以及各种踩坑经验。

作者 : 汪凯策划: 赵钰莹

2021-04-07

2837

vivo AI计算平台弹性分布式训练的探索和实践

vivo AI 计算平台弹性分布式训练的探索和实践

本文分享了 vivo AI 计算平台在 Kubernetes 集群进行弹性分布式训练的实践心得。

作者 : 林国泽策划: 赵钰莹

2021-02-25

3849

vivo AI 计算平台的K8s填坑指南

vivo AI 计算平台的 K8s 填坑指南

在 2018 年底，vivo AI 研究院为了解决统一的高性能训练环境、大规模的分布式训练、计算资源的高效利用调度等痛点，着手建设 AI 计算平台。

作者 : 吴梓洋策划: 赵钰莹

2020-10-24

4579

vivo AI计算平台在线业务落地实践

vivo AI 计算平台在线业务落地实践

为了支撑公司 AI 在线业务的发展，满足公司对算力资源的高效调度管控需求，需要将在线业务，主要包括 C 端、推理等业务，由原来的虚拟机或物理机迁移至 AI 容器平台。

作者 : 刘东阳策划: 赵钰莹

2020-10-30

2233

Kube-batch在vivo AI计算平台的应用

Kube-batch 在 vivo AI 计算平台的应用

由于 K8s 原生调度器存在诸多问题，vivo 决定采用批调度器 kube-batch，本文讲解了整个团队 kube-batch 实践历程和解决的问题。

作者 : 吴梓洋

2019-07-04

8716

vivo手机背后的一站式机器学习平台架构实践

vivo 手机背后的一站式机器学习平台架构实践

InfoQ 有幸采访了 vivo AI 研究院的资深算法工程师鲁文龙，详细了解 vivo 在机器学习平台方面的实践。

作者 : 赵钰莹

2020-01-21

6696

vivo AI计算平台 Kubernetes集群Ingress网关实践

vivo AI 计算平台 Kubernetes 集群 Ingress 网关实践

基于在线业务的需求对 AI 容器平台进行进一步建设，并将平台与公司的 CMDB、CICD 等基础模块进行打通，使在线业务能够顺利从虚拟机、物理机迁移至 AI 容器平台。

作者 : 王杰策划: 赵钰莹

2020-12-11

2891

没有更多了