11 月 5 日,“WAVE Summit+”深度学习开发者峰会在北京新云南皇冠假日酒店举行。在此次大会上,百度飞桨推出了 9 项新产品,其主要包括 Master 模式、端侧推理引擎 Paddle Lite 2.0、四个产品开发套件 ERNIE、PaddleSeg、Paddle Detection、ElasticCTR 以及三个工具组件 PALM、PGL、PaddleFL。
飞桨简述
飞桨,可以指极速划动的桨,也可以指飞快行驶的舟。如果说,百度是一艘航行在“大海”中的船,那么百度飞桨的意思应该是与前者更加相近。
百度飞桨是百度深度学习平台的中文名,而 PaddlePaddle 则是其在“江湖”闯荡时所留下的名号。
飞桨是一款端到端的开源深度学习平台,集成有深度学习训练和预测的核心框架、基础模型库、端到端开发套件、工具组件和服务平台 5 个模块。据了解,目前飞桨已经应用于工业、农业、服务业等各个行业内,开发者人数近 150 多万名。
虽然在知乎上,无论是 Paddle Lite 框架还是百度的整体 AI 战略,人们的评论褒贬不一,但是在今天全新发布的百度飞桨上,闪光点依旧存在。
飞桨最新的“果实”
在本次深度学习开发者峰会上,百度深度学习技术平台部总监马艳军表示,此次全新发布的百度飞桨包括有 9 项新产品:一个模式、一个端侧推理引擎、四个产品开发套件、三个工具组件。
一个模式
一个模式,指的是飞桨 Master 模式。它可以满足小数据、多场景、操作简单三点要求。
在此次大会上,百度 AI 技术平台体系执行总监吴甜称:飞桨是一个源于产业实践,与产业共进的深度学习开源开放平台。在未来,飞桨将持续提高自身在分布式计算、异构计算等方面的能力,不仅提供更多的硬件支持,还会构建预训练模型和迁移学习相结合的 Master 开发模式,为开发者和产业更好的赋能。
所谓 Master 模式,指的是:算力+数据和知识+算法=产业级预训练模型,产业级预训练模型+迁移学习工具平台构成 Master 的核心,可以用于多种行业场景。 开发者只需要使用较少的标注数据,通过利用飞桨的迁移学习工具,就可以将自己的算法模型快速高效地部署到所需要的应用场景中。
一个端侧推理引擎
一个端侧推理引擎,指的是 Paddle Lite 2.0。百度表示,最新发布的 Paddle Lite 2.0 具有高易用性、广泛硬件支持、性能领先三个特性。
今年 8 月,Paddle Lite 正式发布,它是一种轻量级的深度学习推理框架。在此次大会上,百度推出了全新的 Paddle Lite 2.0,并表示其打通了端到端部署全流程,可以提升易用性,具有更广泛的硬件支持,并在性能方面占据明显优势。
在易用性上,开发者从预测到部署完整工具链,只需要 7 行代码调用 ResNet50。
在硬件支持上,移动端的 Paddle Lite 2.0 可以支持 8 种主流硬件,现又新增有 HUAWEI NPU 和边缘设备 FPGA,据了解,未来还可能支持寒武纪和比特大陆的专用芯片。
在性能上,Paddle Lite 2.0 在主流 10 大模型的测试以及 INT8 量化预测中,具备较大优势。
项目地址:https://github.com/PaddlePaddle/Paddle-Lite
四个端到端开发套件
四大端到端开发套件,分别指 ERNIE(语意理解)、PaddleSeg(图像分割)、Paddle Detection(目标检测)、ElasticCTR(个性化推荐),这也是飞桨体系中完全新增的模块。
百度表示:
ERNIE 属于 NLP 领域,具有“支持各类训练任务、保证极速推理、坚固灵活部署、具备轻量方案”4 个主要特点。可以应用于工业级 NLP 任务,如中文词法分析、文本情感分类、机器阅读理解、文本对话理解等。
项目地址:https://github.com/PaddlePaddle/ERNIE
PaddleSeg 属于 CV 领域,具有“丰富数据增强、主流模型覆盖、高性能、工业级部署”4 个主要特点,可以应用于智能工业(工业质检、表针识别等)、智能图像(人像特效、智能抠图等)、智能农业(地块识别、产量预估等)等应用场景。
项目地址:https://github.com/PaddlePaddle/PaddleSeg
Paddle Detection 属于 CV 领域,具有“高性能、模型丰富、工业级部署”3 个主要特点,可以应用于智慧交通、安防监控、商品检索等应用场景。
项目地址:https://github.com/PaddlePaddle/PaddleDetection
ElasticCTR 属于推荐领域,它来源于产业实践,具有“弹性调度、高性能、工业级部署”等特点,可以应用于视频推荐、咨讯推荐、搜索排序等应用场景。
三个工具组件
三个工具组件分别指的是 PALM(多任务学习框架)、PGL(图神经网络框架)、PaddleFL(联邦学习框架)。
PALM 预置有常见的骨架网络模型(XLNet、BERT、ERNIE 等)、学习任务(文本分类、语义匹配、序列标注、语言模型等)和数据处理模块(切词、reader 管理等),在运行时可进行高性能训练(一部数据 IO。单卡/多卡训练等)和预测部署(主任务一键预测部署)。
项目地址:https://github.com/PaddlePaddle/PALM
PGL 内置有游走类(Walk Based)和消息传递类(Message Passing)两种模型,包括 DeepWalk、Node2Vec、GATNE、Unsup GraphSAGE、GCN、GAT 等 13 个图学习模型,主要应用场景包括推荐系统、知识图谱、用户画像等。
项目地址:https://github.com/PaddlePaddle/PGL
PaddleFL 主要负责解决组织间数据隔离和数据知识安全共享的问题,而且它还提供了很多联邦学习策略及其在计算机视觉、自然语言处理、推荐算法等领域的应用。
项目地址:https://github.com/PaddlePaddle/PaddleFL
飞桨的发展历程
今年 10 月份,第六届世界互联网大会在浙江乌镇召开,在此次大会上,百度创始人、董事长兼首席执行官李彦宏就在演讲中表示自己是一个人工智能的乐观主义者。所以如果仔细回想,百度从始至终对于 AI 的态度都是积极的,尤其是在飞桨的研究、发展、部署等方面。
如果向上追溯,时间或许可以到 2013 年,这一年百度开始研发深度学习框架 PaddlePaddle,搜索、凤巢 CTR 预估上线 DNN 模型。但如果说是形成规模的产品迭代,应该是飞桨开源之后,这个时间在 2016 年,同时飞桨的开源,也标志着国产开源深度学习平台的诞生。
2017 年,百度信息流推荐系统使用深度学习,并发布了新一代深度学习框架 Paddle Fluid。
2018 年,PaddlePaddle 3.0 升级为全面的深度学习开发套件;百度视觉模型、强化学习在 ActivityNet 2017/2018 kinetics、Google AI Open Images-Object Detection Track、NIPS AI for Prosthetics Challenge 等多项国际比赛中夺冠。
2019 年 4 月,首届深度学习开发者峰会在北京召开,PaddlePaddle 深度学习平台全面升级,发布中文名称“飞桨”,在框架开发、模型库、分布式训练、部署、工具组件等方向发布更新。
今年 7 月,在“Baidu Create 2019”百度 AI 开发者大会上,百度首席技术官王海峰与华为消费者 BG 软件总裁王成录共同宣布,百度飞桨深度学习平台与华为麒麟芯片强强联手,双方将打通深度学习框架与芯片,为 AI 时代打造强大算力和最流畅的应用体验。
有舟可乘,有桨可用
自从深度学习在 2012 年重新占据主导地位以来,许多机器学习框架争相成为研究人员和从业者的新宠。
不过,自从今年 10 月,Facebook 在 PyTorch 开发者大会上发布最新版 PyTorch 1.3 之后,机器学习框架的局势有了明显的变化,目前全球范围内的机器学习框架之争,大概已经可以等同于 TensorFlow 和 PyTorch 两家的较量,大环境下,百度飞桨的境地被说成是“夹缝中生存”应该也不为过。
但是,面对“芯片断供”、“安卓不支持”等一系列的前车之鉴,飞桨好像也变得急切起来,就比如这次仅隔半年就带来了数十项更新发布。
或许正如文章一开始所说的,如果百度是一艘行驶在大海中的船,那么在航行的过程中,必定会遇到各种各样的麻烦。当面临突如其来的困难时,无论是舵手还是大船自身的“硬件条件”都必不可少,目前显而易见的是,飞桨正在不断进化,而百度或许将会因此受益。
评论