写点什么

详解分布式技术、AI 开发平台 全球架构师峰会百度飞桨核心技术专题分享

  • 2021-05-06
  • 本文字数:3322 字

    阅读完需:约 11 分钟

详解分布式技术、AI开发平台 全球架构师峰会百度飞桨核心技术专题分享

作为近十几年人工智能最热门的研究领域之一,深度学习取得的突破进展有目共睹,甚至影响到人工智能行业整体的发展基础。4 月 26 日,2021 年 ArchSummit 全球架构师峰会在上海召开,百度举办“深度学习技术解读与实践”专场,多位飞桨技术专家分享了核心框架 2.0、开源模型库、分布式训练技术、以及 AI 开发平台的技术实践经验。



据了解,ArchSummit 全球架构师峰会是重点面向高端技术管理者、架构师的技术会议,54%参会者拥有 8 年以上工作经验。会议聚焦业界强大的技术成果,展示先进技术在行业中的典型实践,以及技术在企业转型、发展中的推动作用。


深度学习技术的广泛应用得益于深度学习框架的建设。深度学习框架在智能时代起到了承上启下的作用,下接芯片,上承各种应用,是“智能时代的操作系统”。而我国首个自主研发的产业级深度学习平台飞桨,已涵盖深度学习核心框架、基础模型库、端到端开发套件、工具组件以及飞桨企业版 AI 开发平台,能够助力开发者快速实现 AI 业务创新,上线 AI 应用。



(飞桨产业级深度学习平台全景图)

飞桨核心框架 2.0 与开源模型库解读

活动当天,百度杰出研发架构师从飞桨的核心技术,飞桨核心框架 2.0 版本的升级特色,以及飞桨的产业级官方模型库的能力和产业应用案例进行介绍。整体而言,飞桨训练时以 Python 为主,拥有非常简单易用的编程界面,提供了多语言部署接口,可以顺畅部署到各种各样的研发环境。相对于其他框架,飞桨具备以下四大优势:


开发便捷的深度学习框架:提供了易用的 API,在飞桨框架 2.0 API 中表现明显;


超大规模深度学习模型训练技术:天然提供超大规模深度学习的模型训练技术,包括异构参数服务器、多维混合并行等等方面;


多端多平台部署的高性能推理引擎:飞桨模型在经过开发之后,会经过模型压缩、量化、蒸馏等优化的策略,能够在服务器端、移动端、网页端等不同架构的平台设备轻松部署。

产业级的开源模型库

开源丰富算法和预训练模型,包括国际竞赛冠军模型,快速助力产业应用。


今年初,飞桨框架 2.0 正式版发布。飞桨框架 2.0 的性能和效率明显提升,主要表现在以下方面:

动静统一的开发体验

飞桨框架 2.0 支持动态图和静态图两种开发模式,在 API 设计的时候,保持静态图和动态图组网类 API 的统一,通过添加一行代码,即可使得相同的网络在动态图和静态图两种模式下执行。动静统一的接口设计,使得飞桨在保持动态图的灵活性的同时,兼具静态图的高效。飞桨提供了全面完备的动转静支持,在 Python 语法支持覆盖度上达到领先水平。开发者在动态图编程调试的过程中,仅需添加一个装饰器,即可实现静态图训练或模型保存。同时飞桨框架 2.0 还做到了模型存储和加载的接口统一,保证动转静之后保存的模型文件能够在动、静态图模式中加载和使用。

高低融合的 API 体系

飞桨框架 2.0 不仅完全兼容历史版本,配套完善文档和教程。高层 API 与基础 API 还采用一体化设计,即在编程过程中可以同时使用高层 API 与基础 API,让用户在简捷开发与精细化调优之间自由定制。



此外,飞桨官方支持超过 270 个经过产业实践长期打磨的主流算法模型,涵盖计算机视觉、自然语言处理、语音、推荐等多个领域,其中包含在图神经网络国际权威榜单 OGB(Open Graph Benchmark)和文本图推理比赛 TextGraphs2020 取得 4 项第一的飞桨图学习框架(PGL)、顶会 ECCV 2020 比赛中斩获两个赛道冠军的 PaddleDetection 等多个比赛夺冠模型。



飞桨模型库具备很好的敏捷性,针对不同任务还提供了丰富的开发套件,除了图像分类套件 PaddleClas,还有包括目标检测开发套件 PaddleDetection、PaddleOCR 开发套件、图像分割开发套件 PaddleSeg 等等,覆盖全面、应用效果显著。

飞桨分布式训练技术架构剖析

当需要大规模的数据或使用大规模参数量进行模型训练时,百度资深研发工程师还向大家介绍了飞桨深度学习平台的分布式训练技术。其支持面对海量数据、大规模稀疏模型以及常规数据、大规模稠密模型的训练,并提出了参数服务器模型和集合通信模式,两个模式分别具备相应的优势:

参数服务器模式 (ParameterServer)

特点:中心化参数存储 + 同步当前节点的梯度


常见应用场景:IO 密集型任务(数据大、参数稀疏),如点击率预估

集合通信模式 (Collective)

特点:去中心化参数存储 + 同步所有节点的梯度


常见应用场景:训练密集型任务,如图像分类


在实际操作中,飞桨分布式训练框架包括三层:


硬件部署层:支持 CPU、GPU,还有如百度的昆仑、华为的昇腾等国产 AI 芯片。针对原生的 K8S,或者是各种云都具备调度功能。


核心框架层:从硬件逐渐到基础框架,再到二次开发的开发者层面、API 层面,逐渐自下往上的过程。


应用产业层:支持各种不同的业务、提供不同飞桨开发套件支持。



而在飞桨框架 2.0 升级之后,飞桨分布式训练又具备了更多的新特性:

分布式 API Fleet 全面升级

飞桨将一些主流的训练模式,包括集合通信训练和参数服务器训练,做成统一的 Fleet API(paddle.distributed.fleet),并在集合通信训练功能下实现了动态图和静态图训练 API 的统一。

通用异构参数服务器

通用异构参数服务器可以对任务进行切分,让用户可以在硬件异构集群中部署分布式训练任务,实现对不同算力的芯片高效利用,为用户提供更高吞吐,更低资源消耗的训练能力。


千亿语言模型多维混合并行训练

飞桨可以支持对四种不同并行策略的任意选择组合,充分考虑显存、带宽,并结合每一种硬件的特性和策略通讯量组合策略,降低超大规模的计算耗时,同时保证模型效果。


百度 AI 开发平台的探索与实践

除了架构与技术上的优势与创新经验外,根据百度与波士顿咨询公司的联合调研中,发现市场上约 86%的企业需求都是定制化的 AI 需求,从平台在 2017 年到 2020 年四年的数据也可以看出,定制化模型翻了六倍,整个产业的智能化正在跟 AI 技术做深度结合,这个需求也在不断地增长。


为了解决 AI 开发上的困难和挑战,并且满足企业针对场景的定制化应用需求,百度推出飞桨企业版,包括面向 AI 应用开发者打造的零门槛 AI 开发平台 EasyDL 和面向 AI 算法开发者的全功能 AI 开发平台 BML。


面向 AI 应用开发者的平台——EasyDL

截止目前 EasyDL 已有超过 80 万企业用户,落地智能硬件、零售快消、安全生产等行业。EasyDL 最快 15 分钟即可获取定制 AI 服务,满足 AI 应用开发者的核心诉求:


丰富任务场景:支持图像、文本、视频、语音、OCR、结构化数据、零售行业版 7 大技术方向,图像分类、视频分类、情感倾向分析、OCR 模版定制、语音识别、时序预测、商品检测等 16 种任务类型。


便捷的数据服务:提供了 EasyData 智能数据服务,实现数据采集、评估、清洗、标注的一站式服务。极大降低用户获取与处理数据的成本。


超高精度训练效果:EasyDL 内置了百度自研的超大规模视觉预训练模型和自然语言处理的预训练模型文心(ERNIE)2.0,对比开源数据集训练的预训练模型可以有效全面提升模型效果。


灵活部署方案:提供了公有云 API、本地服务器部署、设备端 SDK、软硬一体产品四大部署方式。在设备端 SDK 上,适配了超过 15 种主流芯片与四大操作系统,实现了业界适配最广。软硬一体产品上,提供 6 款方案,模型识别速度最高达 10 倍提升。

面向 AI 算法开发者的平台——BML

BML 具有以下四个核心优势,建模方式全面、自动搜索调优、灵活交付部署、提供多种国产化的解决方案,为企业提供自主可控广泛适配的 AI 开发平台。


建模方式全面:BML 提供预置模型调参、Notebook、多种框架的代码开发、可视化建模等多种建模方式。


自动搜索调优:BML 提供的自动超参搜索功能是创新基于随机微分方程的无梯度优化的调参算法,收敛速度快,不依赖平滑性假设,并且可以支持大规模的并行搜索调参。在开启自动超参搜索之后,BML 线上多场景的模型精度平均可提升 10%以上。


灵活交付部署:BML 有四种满足不同需求的交付方式,包括公有云、私有云、混合云、一体机。


国产化的解决方案:BML 全面支持从国产深度学习框架飞桨,到麒麟等国产操作系统,再到国产 CPU 和 GPU 以及长城、曙光、联想、浪潮推出的各类硬件形态,构成了自主可控、适配广泛的 BML 一体机,高性价比的算力资源满足各类算力需求。



从全球架构师峰会上百度技术专家的分享可以看出,作为拥有强大互联网基础的领先 AI 公司,百度正不断突破关键技术,开源开放,生态共建,推动企业赢得产业智能化大势商机。随着 AI 业务的需求量、应用场景增多,未来在飞桨这类深度学习平台的作用下智能经济时代也将加速而来。

2021-05-06 19:103250

评论

发布
暂无评论
发现更多内容

直播预告|Sora 会怎样驱动视频编解码领域的突破与革新

声网

智启未来:TinyEngine 低代码引擎版本更新,畅享升级体验

OpenTiny社区

开源 前端 低代码 web开发

解密通义灵码:软件研发工具的“大脑”

阿里巴巴云原生

阿里云 云原生

一文趣谈Docker与低代码:软件开发的新风尚

快乐非自愿限量之名

Docker 软件开发 低代码 容器化

开放签开源电子签章产品白皮书(简版)

开放签开源电子签章

开源 电子签章

Apache Flink 中 Watermark 机制详解及其核心原理与应用示例

木南曌

flink 实时计算 watermark

mj ai作画是什么?5款中文版Midjourney软件推荐!

彭宏豪95

人工智能 在线白板 AIGC AI绘画 MidJourney

一分钟了解JAVA语言

高端章鱼哥

通过ETL工具快速实现单据同步

RestCloud

数据同步 ETL 数据集成

填补市场空白,Apache TsFile 如何重新定义时序数据管理

Apache IoTDB

基础设施SIG月度动态:社区官网 SIG 增加轻量级 PR 支持,CVECenter 上线漏洞认领功能

OpenAnolis小助手

龙蜥社区 龙蜥社区SIG 月度动态

龙蜥社区衍生版浪潮信息 KOS 升级!支持最新 5.10 内核,让大模型“开箱即用”

OpenAnolis小助手

龙蜥操作系统 龙蜥社区衍生版

数据库与低代码:重塑软件开发的新范式

不在线第一只蜗牛

数据库 低代码 数据可视化

提升Java编程安全性-代码加密混淆工具的重要性和应用

初探 Cocos Creator: 碰撞与物理系统

北桥苏

游戏开发 游戏引擎 小游戏 CocosCreator

2024盘点:除了Redmine,还有哪些不错的项目管理工具

爱吃小舅的鱼

项目管理 项目管理工具 Redmine

浅谈前端路由原理hash和history

高端章鱼哥

【OCI系列】走进甲骨文云服务器:打造专属的云资源管理空间

Geek_2d6073

从 Linux 内核角度探秘 JDK MappedByteBuffer

不在线第一只蜗牛

Linux 测试

【OCI系列】走进甲骨文云服务器:– Console

Geek_2d6073

GaussDB(分布式)实例故障处理

快乐非自愿限量之名

分布式 故障

外贸独立站怎么搭建?

九凌网络

探索Garnet:微软开源的高性能分布式缓存存储系统

gogo

低代码与前端项目部署:革新软件开发的新篇章

EquatorCoco

前端 前端开发 低代码

一文读懂Partisia区块链的MOCCA 方案:让资产管理可信且可编程

大瞿科技

2023 re:Invent | Amazon Q 与 Amazon CodeWhisperer 面向企业开发者提效利器

亚马逊云科技 (Amazon Web Services)

开箱即用的使用体验!Alibaba Cloud Linux 的演进之旅

OpenAnolis小助手

Alibaba Cloud Linux 龙蜥操作系统大会

Rust Rocket简单入门

快乐非自愿限量之名

rust 后端 开发语言

项目经理的职业素养:从执行到战略的五级跃升

凌晞

项目管理 项目经理

高性能网络SIG月度动态:virtio 支持 RSS 功能!virtio 标准委员会正式接受 SIG 提案

OpenAnolis小助手

龙蜥 龙蜥社区SIG 月度动态

详解分布式技术、AI开发平台 全球架构师峰会百度飞桨核心技术专题分享_AI&大模型_PaddlePaddle技术团队_InfoQ精选文章