速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

百度飞桨 PaddleCV 全景图曝光 视觉技术能力三方面重磅更新

  • 2020-03-25
  • 本文字数:2471 字

    阅读完需:约 8 分钟

百度飞桨PaddleCV全景图曝光 视觉技术能力三方面重磅更新

2020 年,“新基建”正给中国科技发展带来新的重大机遇,人工智能基础设施面临全面升级。深度学习框架正是推动产业智能化进阶的重要基础设施。近日,深度学习开源平台——百度飞桨,在智能视觉领域实现多项能力升级。


此次,PaddleCV 最新全景图首度曝光。其中,PaddleDetection、PaddleSeg、PaddleSlim 和 Paddle Lite 重磅升级;全新发布 3D 视觉和 PLSC 超大规模分类 2 项能力。同时,PaddleCV 新增了 15 个在产业实践中广泛应用的算法,整体高质量算法数量达到 73 个;35 个高精度预训练模型,总数达到 203 个。



PaddleCV 全景图


如全景图所示,PaddleCV 主要从三方面更新核心技术能力:


第一,核心技术能力升级,基于产业实践真实场景打磨,多场景视觉任务上模型准确率全面提升。


PaddleDetection 模块种类与性能全面提升,YOLOv3 大幅增强,精度提升 4.3%,训练提速 40%,推理提速 21%;人脸检测模型 BlazeFace 新增 NAS 版本,体积压缩 3 倍,推理速度提速 122%;新增 IoU 损失函数类型,精度再提升 1%,不增加预测耗时。在模型方面,新增 3 个类型,基于 COCO 数据集的精度最高开源模型 CBNet,高达 53.3%;Libra-RCNN 模型精度提升 2%;Open Images V5 成为目标检测比赛最佳单模型。


PaddleSeg 新增基于 HRNet 的高精度图像分割模型,其最大的特点是将图像在整个处理过程中保持高分辨率特征,这和大多数模型所使用的从高分辨率到低分辨率网络产生的低分辨率特征中恢复高分辨率特征有所不同。同时,获得实时语义分割模型 Fast-SCNN,它的最大特点是“小快灵”,即该模型在推理计算时仅需要较小的 FLOPs,就可以快速推理出一个不错的结果。



Fast-SCNN 网络结构图


PaddleCV 还新增了 3D 点云分类、分割和检测的 PointNet++和 PointRCNN 模型。PointNet++在 ModelNet40 数据集上,分类精度高达 90%;PointRCNN 在 KITTI(Car)的 Easy 数据子集上,检测精度高达 86.66%。和此前 PaddleCV 支持的数十种模型一样,基于飞桨框架,开发者无需全新开发代码,只要进行少量修改,就能快速在工业领域实现 3D 图像的分类、语义分割和目标检测任务。


图像分类新增预训练模型 SENet-vd、Res2Net、HRNet 系列模型。Res2Net 可以更细粒度表示多尺度特征,HRNet 全程都可以保持高分辨率。截至目前,飞桨图像分类模型包含了 ResNet、ResNet-vd、ResNet_ACNet、MobileNet、ShuffleNet、EfficientNet 等系列近 20 类图像分类算法,105 个预训练模型,也可供目标检测、图像分割等任务应用。其中,ResNet-vd 系列相比 ResNet 系列模型,在不增加推理耗时的情况下,精度提高 1%-2%,EfficientNet 推出了 small 版本,在 GPU 上速度提升 1.59 倍。


第二,PaddleCV 端到端能力大幅提升,打通了模型开发、训练、压缩、部署全流程,更好地服务于产业实践。


目标检测模型在实际部署时,由于耗时和内存占用,仍然存在很大挑战。基于此,PaddleSlim 提供了多种高效的模型压缩方法,助推 PaddleDetection 性能到达全新高度。使用蒸馏模型压缩方案可提升验证精度 2%;裁剪模型压缩方案大幅降低 FLOPs;蒸馏+裁剪模型压缩方案,基于 COCO 数据集进行测试,可以加速 2.3 倍。此外,PaddleDetection 还为开发者提供了从训练到部署的端到端流程,并提供一个跨平台的图像检测模型的 C++预测部署方案。


跟目标检测模型类似,语义分割模型在实际部署时也会面临耗时、内存占用的挑战。PaddleSlim 为 PaddleSeg 提供了多种分割模型的压缩方案,FLOPs 减少 51%,提升部署成功率。


针对超大规模人脸识别等应用挑战,正式发布 PLSC 超大规模分类工具。一方面,通过多机分布式训练可以将全连接层参数切分到更多的 GPU 卡,从而支持千万类别分类,并且飞桨大规模分类库在理论上可支持分类类别数随着使用 GPU 卡数的增加而增加。另一方面,PLSC 的训练精度和效率高,在多个数据集上得 SOTA 的训练精度,同时支持混合精度训练,单机 8 张 Nvidia Tesla v100 GPU 配置下混合精度训练速度提升 42%。PLSC 让开发者通过五行代码即可实现千万类别分类网络的构建和训练,提供大规模分类任务从训练到部署的全流程解决方案。同时,支持训练 GPU 卡数的动态调整、Base64 格式图像数据预处理。


PaddleCV 与飞桨分布式训练能力全面结合,对于人脸识别等广泛的场景应用提供了推动作用。3 月初,百度开源的“戴口罩人脸识别算法”中,即通过 PLSC 实现了快速对数百万 ID 的训练数据进行训练;同时采用飞桨模型压缩库 PaddleSlim 进行模型搜索与压缩,产出了高性能的人脸识别模型;最后基于 Paddle Lite,实现了云端和移动端的快速部署。


第三,PaddleCV 全面打通了模型算法、开发框架和 AI 芯片,实现软硬一体化。


首先,PaddleCV 基于 Paddle Lite 多硬件支持能力的优势,与昆仑芯片进行深度联合优化,实现端到端软硬一体能力的完全领先和自主可控。以制造业为例,百度与微亿智造联合打造了智能自动化监测设备“表面缺陷视觉检测设备”,区别于传统人工肉眼检查电子零件的方式,既保障质检环节的检查质量与效率,也进一步缓解了由于疫情原因造成的人力缺乏问题。


此次合作,借由百度昆仑芯片、百度智能云的加持,以及基于百度飞桨深度学习平台的目标检测模型,微亿构建完成了一个从智能硬件到算法软件再到算力供给的智能制造解决方案大闭环,具备了端到端软硬一体能力,实现了完全的自主可控。此外,在央视《新闻联播》2 月 10 日报道中还提到,江苏常州的精研科技借助“表面缺陷视觉检测设备”,解决了工人无法复工情况下的生产难题,在精研科技的精密零部件制造车间,十台无人值守的智能化检测设备 24 小时工作,比人工检测效率提升近 10 倍。



百度与微亿智造打造的工业智能质检设备


PaddleCV 的重磅升级,飞桨为视觉领域提供了更为强大且应用广泛的工具,加速不同产业的 AI 落地。除了在视觉领域,飞桨也形成了语音、视觉、NLP 等全方位的能力体系。飞桨还充分发挥全硬件平台能力的优势,与昆仑芯片深度融合优化,打造技术领先、自主可控的软硬一体技术平台。


目前,飞桨已累计服务 150 多万开发者,帮助 6.5 万企业用户,作为百度大脑的坚实底座,在很多领域发挥着实实在在的作用。


2020-03-25 08:001226

评论

发布
暂无评论
发现更多内容

模运算和与运算的一点儿简单思考

LSJ

位运算 二进制

JVM中的对象及引用

Ayue、

技术专题合集

莫要寻找可能不存在的答案

FunTester

学习 解决方案 自学 FunTester 思路

滚雪球学Python系列,真能学会Python!

梦想橡皮擦

内容合集 签约计划第二季

等保工作五大误区汇总,让你更懂等保!

行云管家

网络安全 等保 等级保护

【AI最前线】精准优质-资讯|分享|热议第42期

百度大脑

HBase 和 Hive 的差别是什么,各自适用在什么场景中

编程江湖

大数据

mPaaS 月度小报|魔方卡片(Cube)公测,十个卡片模板任意使用

蚂蚁集团移动开发平台 mPaaS

小程序 消息推送 移动开发 API网关 cube

模仿UP主,用Python实现一个弹幕控制的直播间!

Zhendong

Python

青藤解密:72%客户容器规模>100个,[镜像安全]谁来保护?

青藤云安全

镜像安全

做一款互联网内容平台,到底要懂多少AI?

百度开发者中心

AI

前端避坑指南丨辛辛苦苦开发的APP竟然被判定为简单网页打包?

YonBuilder低代码开发平台

大前端 APP开发 APICloud 跨端开发

打造基于 PostgreSQL/openGauss 的分布式数据库解决方案

SphereEx

数据库 开源 分布式数据库 ShardingSphere SphereEx

MySQL「 Every derived table must have its own alias」1248 错误修复法

蒋川

数据库 MySQL 运维 MySQL 数据库

软件工程师年满 40 岁,下一步怎么走?|本周话题

InfoQ写作社区官方

生涯规划 个人成长 职业规划 话题讨论

百度智能客服斩获 “金音奖—中国最佳客户联络中心技术与解决方案奖”

百度大脑

人工智能 智能客服

火山引擎+焱融 YRCloudFile,驱动数据存储新增长

焱融科技

云计算 分布式 云原生 高性能 文件存储

复杂场景,从OpenTSDB迁移到TDengine的最佳实践

TDengine

数据库 tdengine

开始读 Go 源码了

AlwaysBeta

golang 源码 源码阅读 源码剖析 Go web

【Java】代码重构时,为什么禁止在方法内对对象类型的入参赋值

恒生LIGHT云社区

Java 代码规范 java代码规范

Go语言学习查缺补漏ing Day2

恒生LIGHT云社区

Go 编程语言

CIO如何制定低代码/无代码战略

WorkPlus

如何在 Flutter 中设置背景图像【Flutter专题15】

坚果

flutter 28天写作 签约计划第二季 12月日更

什么是云计算?云计算特点是什么?

行云管家

云计算 公有云 混合云 云资源

架构实战营 模块七作业

felix

「架构实战营」

Redis架构实战:高并发情况下并发扣减库存

编程江湖

java编程

详解工作流框架Activiti的服务架构和组件

华为云开发者联盟

工作流 工作流引擎 BPM Activiti BPMN

同态加密实现数据隐私计算,能让你的小秘密更加秘密

华为云开发者联盟

数据 加密 同态加密 联邦计算 数据隐私计算

清空数组的几个方式

编程江湖

大前端

面对行业难题,华为云邀请物联网全行业拿出“亮剑”精神

华为云开发者联盟

IoT 华为云 LiteOS HarmonyOS IoT边缘

大数据开发技术应该怎么学习入门才好

@零度

大数据

百度飞桨PaddleCV全景图曝光 视觉技术能力三方面重磅更新_AI&大模型_百度_InfoQ精选文章