写点什么

详解分布式技术、AI 开发平台 全球架构师峰会百度飞桨核心技术专题分享

  • 2021-05-06
  • 本文字数:3322 字

    阅读完需:约 11 分钟

详解分布式技术、AI开发平台 全球架构师峰会百度飞桨核心技术专题分享

作为近十几年人工智能最热门的研究领域之一,深度学习取得的突破进展有目共睹,甚至影响到人工智能行业整体的发展基础。4 月 26 日,2021 年 ArchSummit 全球架构师峰会在上海召开,百度举办“深度学习技术解读与实践”专场,多位飞桨技术专家分享了核心框架 2.0、开源模型库、分布式训练技术、以及 AI 开发平台的技术实践经验。



据了解,ArchSummit 全球架构师峰会是重点面向高端技术管理者、架构师的技术会议,54%参会者拥有 8 年以上工作经验。会议聚焦业界强大的技术成果,展示先进技术在行业中的典型实践,以及技术在企业转型、发展中的推动作用。


深度学习技术的广泛应用得益于深度学习框架的建设。深度学习框架在智能时代起到了承上启下的作用,下接芯片,上承各种应用,是“智能时代的操作系统”。而我国首个自主研发的产业级深度学习平台飞桨,已涵盖深度学习核心框架、基础模型库、端到端开发套件、工具组件以及飞桨企业版 AI 开发平台,能够助力开发者快速实现 AI 业务创新,上线 AI 应用。



(飞桨产业级深度学习平台全景图)

飞桨核心框架 2.0 与开源模型库解读

活动当天,百度杰出研发架构师从飞桨的核心技术,飞桨核心框架 2.0 版本的升级特色,以及飞桨的产业级官方模型库的能力和产业应用案例进行介绍。整体而言,飞桨训练时以 Python 为主,拥有非常简单易用的编程界面,提供了多语言部署接口,可以顺畅部署到各种各样的研发环境。相对于其他框架,飞桨具备以下四大优势:


开发便捷的深度学习框架:提供了易用的 API,在飞桨框架 2.0 API 中表现明显;


超大规模深度学习模型训练技术:天然提供超大规模深度学习的模型训练技术,包括异构参数服务器、多维混合并行等等方面;


多端多平台部署的高性能推理引擎:飞桨模型在经过开发之后,会经过模型压缩、量化、蒸馏等优化的策略,能够在服务器端、移动端、网页端等不同架构的平台设备轻松部署。

产业级的开源模型库

开源丰富算法和预训练模型,包括国际竞赛冠军模型,快速助力产业应用。


今年初,飞桨框架 2.0 正式版发布。飞桨框架 2.0 的性能和效率明显提升,主要表现在以下方面:

动静统一的开发体验

飞桨框架 2.0 支持动态图和静态图两种开发模式,在 API 设计的时候,保持静态图和动态图组网类 API 的统一,通过添加一行代码,即可使得相同的网络在动态图和静态图两种模式下执行。动静统一的接口设计,使得飞桨在保持动态图的灵活性的同时,兼具静态图的高效。飞桨提供了全面完备的动转静支持,在 Python 语法支持覆盖度上达到领先水平。开发者在动态图编程调试的过程中,仅需添加一个装饰器,即可实现静态图训练或模型保存。同时飞桨框架 2.0 还做到了模型存储和加载的接口统一,保证动转静之后保存的模型文件能够在动、静态图模式中加载和使用。

高低融合的 API 体系

飞桨框架 2.0 不仅完全兼容历史版本,配套完善文档和教程。高层 API 与基础 API 还采用一体化设计,即在编程过程中可以同时使用高层 API 与基础 API,让用户在简捷开发与精细化调优之间自由定制。



此外,飞桨官方支持超过 270 个经过产业实践长期打磨的主流算法模型,涵盖计算机视觉、自然语言处理、语音、推荐等多个领域,其中包含在图神经网络国际权威榜单 OGB(Open Graph Benchmark)和文本图推理比赛 TextGraphs2020 取得 4 项第一的飞桨图学习框架(PGL)、顶会 ECCV 2020 比赛中斩获两个赛道冠军的 PaddleDetection 等多个比赛夺冠模型。



飞桨模型库具备很好的敏捷性,针对不同任务还提供了丰富的开发套件,除了图像分类套件 PaddleClas,还有包括目标检测开发套件 PaddleDetection、PaddleOCR 开发套件、图像分割开发套件 PaddleSeg 等等,覆盖全面、应用效果显著。

飞桨分布式训练技术架构剖析

当需要大规模的数据或使用大规模参数量进行模型训练时,百度资深研发工程师还向大家介绍了飞桨深度学习平台的分布式训练技术。其支持面对海量数据、大规模稀疏模型以及常规数据、大规模稠密模型的训练,并提出了参数服务器模型和集合通信模式,两个模式分别具备相应的优势:

参数服务器模式 (ParameterServer)

特点:中心化参数存储 + 同步当前节点的梯度


常见应用场景:IO 密集型任务(数据大、参数稀疏),如点击率预估

集合通信模式 (Collective)

特点:去中心化参数存储 + 同步所有节点的梯度


常见应用场景:训练密集型任务,如图像分类


在实际操作中,飞桨分布式训练框架包括三层:


硬件部署层:支持 CPU、GPU,还有如百度的昆仑、华为的昇腾等国产 AI 芯片。针对原生的 K8S,或者是各种云都具备调度功能。


核心框架层:从硬件逐渐到基础框架,再到二次开发的开发者层面、API 层面,逐渐自下往上的过程。


应用产业层:支持各种不同的业务、提供不同飞桨开发套件支持。



而在飞桨框架 2.0 升级之后,飞桨分布式训练又具备了更多的新特性:

分布式 API Fleet 全面升级

飞桨将一些主流的训练模式,包括集合通信训练和参数服务器训练,做成统一的 Fleet API(paddle.distributed.fleet),并在集合通信训练功能下实现了动态图和静态图训练 API 的统一。

通用异构参数服务器

通用异构参数服务器可以对任务进行切分,让用户可以在硬件异构集群中部署分布式训练任务,实现对不同算力的芯片高效利用,为用户提供更高吞吐,更低资源消耗的训练能力。


千亿语言模型多维混合并行训练

飞桨可以支持对四种不同并行策略的任意选择组合,充分考虑显存、带宽,并结合每一种硬件的特性和策略通讯量组合策略,降低超大规模的计算耗时,同时保证模型效果。


百度 AI 开发平台的探索与实践

除了架构与技术上的优势与创新经验外,根据百度与波士顿咨询公司的联合调研中,发现市场上约 86%的企业需求都是定制化的 AI 需求,从平台在 2017 年到 2020 年四年的数据也可以看出,定制化模型翻了六倍,整个产业的智能化正在跟 AI 技术做深度结合,这个需求也在不断地增长。


为了解决 AI 开发上的困难和挑战,并且满足企业针对场景的定制化应用需求,百度推出飞桨企业版,包括面向 AI 应用开发者打造的零门槛 AI 开发平台 EasyDL 和面向 AI 算法开发者的全功能 AI 开发平台 BML。


面向 AI 应用开发者的平台——EasyDL

截止目前 EasyDL 已有超过 80 万企业用户,落地智能硬件、零售快消、安全生产等行业。EasyDL 最快 15 分钟即可获取定制 AI 服务,满足 AI 应用开发者的核心诉求:


丰富任务场景:支持图像、文本、视频、语音、OCR、结构化数据、零售行业版 7 大技术方向,图像分类、视频分类、情感倾向分析、OCR 模版定制、语音识别、时序预测、商品检测等 16 种任务类型。


便捷的数据服务:提供了 EasyData 智能数据服务,实现数据采集、评估、清洗、标注的一站式服务。极大降低用户获取与处理数据的成本。


超高精度训练效果:EasyDL 内置了百度自研的超大规模视觉预训练模型和自然语言处理的预训练模型文心(ERNIE)2.0,对比开源数据集训练的预训练模型可以有效全面提升模型效果。


灵活部署方案:提供了公有云 API、本地服务器部署、设备端 SDK、软硬一体产品四大部署方式。在设备端 SDK 上,适配了超过 15 种主流芯片与四大操作系统,实现了业界适配最广。软硬一体产品上,提供 6 款方案,模型识别速度最高达 10 倍提升。

面向 AI 算法开发者的平台——BML

BML 具有以下四个核心优势,建模方式全面、自动搜索调优、灵活交付部署、提供多种国产化的解决方案,为企业提供自主可控广泛适配的 AI 开发平台。


建模方式全面:BML 提供预置模型调参、Notebook、多种框架的代码开发、可视化建模等多种建模方式。


自动搜索调优:BML 提供的自动超参搜索功能是创新基于随机微分方程的无梯度优化的调参算法,收敛速度快,不依赖平滑性假设,并且可以支持大规模的并行搜索调参。在开启自动超参搜索之后,BML 线上多场景的模型精度平均可提升 10%以上。


灵活交付部署:BML 有四种满足不同需求的交付方式,包括公有云、私有云、混合云、一体机。


国产化的解决方案:BML 全面支持从国产深度学习框架飞桨,到麒麟等国产操作系统,再到国产 CPU 和 GPU 以及长城、曙光、联想、浪潮推出的各类硬件形态,构成了自主可控、适配广泛的 BML 一体机,高性价比的算力资源满足各类算力需求。



从全球架构师峰会上百度技术专家的分享可以看出,作为拥有强大互联网基础的领先 AI 公司,百度正不断突破关键技术,开源开放,生态共建,推动企业赢得产业智能化大势商机。随着 AI 业务的需求量、应用场景增多,未来在飞桨这类深度学习平台的作用下智能经济时代也将加速而来。

2021-05-06 19:103327

评论

发布
暂无评论
发现更多内容

Java后端最全面试攻略,吃透25个技术栈,阿里十万字内部面试题总结全网开源

架构师之道

编程 java面试

meta llama 大模型一个基础语言模型的集合

测吧(北京)科技有限公司

测试

猿辅导和作业帮哪个更好

妙龙

作业帮 学习机 猿辅导

DevOps研发效能建设的六大“雷区”:你中招了吗?

嘉为蓝鲸

DevOps 研发度量 效能度量 研发效能管理

怎么把域名解析到IP地址?流程有哪些?一文讲清域名解析那些事

国科云

阿里大牛强力推荐:springboot实战派文档,从入门到实战,样样具备

架构师之道

Java 编程

2025上海国际机器人展(Tech G)

AIOTE智博会

消费电子展 消费电子展会 消费电子博览会 消费电子展览会

面试必刷:阿里巴巴 内部 Java 高级架构师 1080 道面试题

采菊东篱下

Java 编程 计算机

阿里Spring Security OAuth2.0认证授权笔记震撼开源!原理+实战+源码三飞

采菊东篱下

编程 java面试

精选的掘金文章汇总[2024.11月-12月]

安全乐谷

GitHub 架构 算法 前端 后端

RWA代币:下一波财富增长的密码?

TechubNews

OpenAI从传统发布会改成12天直播:OpenAI Day1 带来了哪些惊喜?

测吧(北京)科技有限公司

测试

科大讯飞智能录音笔S8离线版 功能介绍

妙龙

科大讯飞 录音笔

阿里P9重磅分享内部绝密《百亿级并发系统设计》手册!

程序员高级码农

Java 程序员 高并发 架构设计 架构师

Java行情崩盘了?传智播客收入下滑严重,Java之父和金角大王的IT课程白菜价贱卖

陆通

让我们一起来建设 Fluent Editor 开源富文本编辑器吧!

OpenTiny社区

富文本 OpenTiny 前端开源

AI与数据分析|使用机器学习,轻松解决复杂的情感分析问题

Altair RapidMiner

机器学习 AI 数据分析 情感分析 altair

币安独霸,okx,bitget共享天下交易所新格局

区块链项目一站式包装孵化

腾讯云大神呕心沥血整理:redis深度笔记”,看完全面掌握redis核心技术

蓝蓝路

编程 java面试

ARM版CentOS Linux系统镜像文件(苹果M1专用)

理理

科大讯飞air2pro和x3pro有什么区别

妙龙

科大讯飞 办公本

OpenAI从传统发布会改成12天直播:OpenAI Day1 带来了哪些惊喜?

测试人

Mysql优化

EquatorCoco

MySQL

科大讯飞学习机和作业帮学习机哪个好

妙龙

科大讯飞 作业帮 学习机

作业帮学习机T20Pro+ 怎么样

妙龙

作业帮 学习机

作业帮X58和X28区别对比选哪个

妙龙

作业帮 学习机

科大讯飞P20 Plus词典笔 怎么样

妙龙

科大讯飞 词典笔

科大讯飞T30 Lite和T30 Pro 对比

妙龙

科大讯飞 学习机

活动空间预订系统(源码+文档+部署+讲解)

深圳亥时科技

编写 Java 单元测试最佳实践

cloud studio AI应用

2024最新最全面Java复习路线(含P5-P8)!已收录 GitHub

蓝蓝路

编程 java面试

详解分布式技术、AI开发平台 全球架构师峰会百度飞桨核心技术专题分享_AI&大模型_PaddlePaddle技术团队_InfoQ精选文章