AI 模型的训练和推理涉及到一系列软硬件的系统优化,才能保证 AI 作业稳定、快速、高效地运行,能够在长时间的计算过程中保证业务可靠运行,并且可以使 AI 任务的计算用时更短,对资源的利用率提升至最高。以上这些,都对异构计算平台的能力提出了全面的要求,包括调度异构资源、编排 AI 作业、AI 训练和 AI 推理加速等方面。
基于百度在云计算、人工智能领域 20 多年的实践积累,百度智能云在 2021 年推出了 AI 异构计算平台——百度百舸。今年 9 月发布了百度百舸·AI 异构计算平台 2.0,在 AI 计算、AI 存储、AI 容器等模块能力上进行了全面增强,同时推出了全新的 AI 加速套件,使数据湖存储加速提升训练效率 5~10 倍,分布式训练加速提升训练吞吐 50%~150%,推理加速降低时延 40%~60%。
在 12 月的 4 期分享中,来自百度智能云及 NVIDIA 团队的研发人员,将针对调度异构资源、编排 AI 作业、AI 训练和 AI 推理加速等关键点进行全面系统的讲解,介绍基本原理和核心方法,分享百度百舸平台的最佳实践。
议题介绍
12 月 8 日 16:00-17:00 《 云原生 AI 的资源调度和 AI 工作流引擎设计分享 》
分享嘉宾:
王竹云,百度智能云资深研发工程师,云原生 AI 产品研发负责人
你将获得:
了解单机单卡、多机多卡、多机多卡等场景下云原生 AI 的资源调度方法。
了解 AI 工作流引擎 PaddleFlow 打通底层资源和上层业务的架构和细节,提升 AI 工程效率。
12 月 15 日 19:00-20:00《「 AI 训练 」加速原理解析与工程实践分享 》
分享嘉宾:
张恒华,百度智能云资深研发工程师,AIAK-Training 研发负责人
你将获得:
系统性了解各类 AI 模型训练方案下的 AI 训练瓶颈
全面掌握 AI 加速训练的各种方法的原理
了解百度百舸平台的 AI 训练加速套件 AIAK-Training 的工程实践效果
12 月 22 日 19:00-20:00《「 AI 推理 」加速原理解析与工程实践分享 》
分享嘉宾:
孙鹏,百度智能云资深研发工程师,AIAK-Inference 研发负责人
你将获得:
了解 AI 推理加速的核心原理、评估指标以及相应的优化方法
了解百度百舸平台的 AI 推理加速套件 AIAK-Inference 的工程实践效果
12 月 27 日 19:00-20:00 《 视觉大模型训练与推理优化 》
分享嘉宾:
陶砺,NVIDIA GPU 计算专家
陈庾,NVIDIA GPU 计算专家
你将获得:
如何结合 profiling 工具,发现训练与推理的性能瓶颈;
结合 GPU 产品特点,利用算子融合、低精度等技术,以及 Faster Transformer 最佳实践,提升性能并加快吞吐。
点击链接或扫码预约直播,get 百度百舸最佳实践!
评论 1 条评论