为了保证 AI 作业能够稳定、快速、高效地运行,在长时间的计算过程中保证业务可靠运行,将 AI 任务的计算用时更短,对资源的耗费降到最低水平,这对异构计算平台的能力提出了全面的要求,包括调度异构资源、编排 AI 作业、AI 训练和 AI 推理加速等方面。
本次4期分享,将围绕以上关键点进行全面系统的讲解,介绍基本原理和核心方法,分享百度百舸平台的最佳实践。
get 百度百舸最佳实践
AI 应用快速落地要求,给企业带来不同方面的挑战。云原生 AI 如何进行异构资源的调度管理?工作流引擎如何无缝对接 AI 任务与 AI 资源,提升 AI 工程效率?
本文整理自同名线上分享,是 12 月份「百度百舸 - 云原生 AI」技术公开课的第一期:如何在 AI 工程提升资源效能和工程效能的问题。
提升 AI 训练速度对于 AI 技术发展至关重要,不同 AI 模型训练方案下,AI 训练有哪些瓶颈?如何实现 AI 加速训练?
系统性学习 AI 模型训练场景下的性能瓶颈,掌握 AI 加速训练的各种方法的原理,了解百度百舸平台的 AI 训练加速套件 AIAK-Training 的工程实践效果。
随着 AI 推理的天花板持续被推高,AI 推理加速受到越来越多人的关注。AI 推理加速的核心原理是什么?有哪些评估指标及优化方案?
本文整理自同名线上分享,是 12 月份「百度百舸 - 云原生 AI」技术公开课的第三期。推理过程以及痛点,介绍业界典型的推理加速思路和具体方案,并介绍百度智能云在这方面的一些实践成果。
自动驾驶、智慧城市、工业生产……视觉大模型的应用越来越广泛。如何打破视觉大模型训练与推理的性能瓶颈?如何通过算子融合、低精度等技术提升性能?
本文整理自同名线上分享,是 12 月份「百度百舸 - 云原生 AI」技术公开课的第四期和最后一期。