写点什么

如何为实时音视频设计小且优的深度学习模型?(上)

  • 2019-11-30
  • 本文字数:1349 字

    阅读完需:约 4 分钟

如何为实时音视频设计小且优的深度学习模型?(上)

在 11 月 25 日,DevFest 2018 在上海如期举行。声网 Agora 首席科学家钟声与在座的上千位开发者分享了演讲《Deep Learning for MobilePlatforms: Complexity and Performance Analysis》。以下是由 GDG 整理发布的演讲实录。

开场白

最近在微信群里看到一张很有意思的图,大家应该都见过大街小巷地铁站旁边的手机贴膜吧?但这张图的牌子上写的不是「手机贴膜」而是「模型调参」。用这个例子虽然有些不恰当,但人工智能学习算法确实正在成为我们生存的必杀技,可见人工智能有多火。

从 AI 的应用开始

回到我们今天的主题,我想问,今天的午餐和深度学习有什么共同之处?餐盒和黑盒,都是盒子。餐盒有一个沙拉、主菜和餐后的水果。黑盒子打不开、看不到。


今天的演讲试图稍稍进入黑盒里能看一下,作为工程师,我们都想知其然,也知其所以然。我就基于我们所做的工作稍稍解密一下深度学习某些方面。


声网主要提供实时音视频通信传输服务、编解码及前后处理等等,我们更多的聚焦在通信实时交互领域。


现在的社交娱乐应用里面有很多 AI 的应用。美颜,贴纸,包括一些交互动作的识别,变脸、变声都是属于风格转换,AI 算法在这些方面有很好的应用。


除了这些,AI 在后处理端也有很多应用。比如如何提升比较模糊的图像的细节,更清晰地呈现给大家,提高收视的体验;又比如由于网络传输线路上有丢包,接收的数据有失真,这个也可以利用 AI 算法来补偿。


AI 在云端也有更多的应用,比如内容的监管,比如黄色图片的鉴别,以及识别暴力图像,还有语音变成文本,以及情感计算等等,这些很多在实时通信领域里有非常好的应用。

超分辨率恢复模糊图像

下面以恢复模糊图像作为一个例子,介绍人工智能的深度算法和应用。


我们都知道超分辨率(超分,SR)对恢复细节有帮助。在我们的场景下,由于网络带宽受限,会产生丢包,因而此时会以低码率压缩和传输图像,解码出来的图像通常是会模糊一点,影响收视体验。尤其是在直播应用里,用户希望看到清晰的面容和听到清晰的声音。


超分是我们后处理的一步,作为跟前面的处理不相关的一个处理,这一步放在最后。视频源经过编码在网络上传输,解码器收到后经过解码出来是一个模糊的图像,经过超分辨率处理把细节提升或者放大,再显示出来。


深度神经网络已经被证明了可以较好地生成图像的细节。GAN 模型是一个非常有效的模型,它也是我们超分算法的基础模型,接下来主要是以 GAN 来做性能和复杂度的分析。

GAN 模型

下面介绍一下 GAN 的基本思路。它通常包含两个网络,一个是生成器,一个是判别器,这两个模型以又合作又对抗的方式运作,最后达到一个平衡,使得生成器能够产生以假乱真的数据,例如:


  • 当判别器接收到的是真实的图像数据,判别器会把它接受为一个真实的数据。

  • 当生成器输入的是一个低分辨率的数据,我们想生成高清的数据,希望生成器出来的数据像真的一样。但判别器的任务正好相反,它尽量不让生成的数据蒙混过关,并且要把它踢出去。


一旦被区别出来之后,生成器会反复训练、调参,使得生成的数据更像真的;判别器也会反复训练、努力提高自己的能力,鉴别假数据的能力越来越强。可谓道高一尺魔高一丈,最后二者收敛的时候判别器再也不能区分生成器生成出来的数据是真的还是假的,这个时候的结果就被判别器接受了。


最近几年在顶级 AI 会议上,三分之二以上的文章可能跟 GAN 有关的。


2019-11-30 22:11628

评论

发布
暂无评论
发现更多内容

包头等保测评中心电话是多少?在哪里?

行云管家

等保测评 包头 等保测评机构

我与tidb的十年,我的职业生涯中遇到的各式各样的数据库。

TiDB 社区干货传送门

社区活动 TUG 话题探讨

解锁未来财富密码:AI自动化副业创收班-终身财富加速器

测试人

人工智能 软件测试

巴黎同款,六自由度技术还原赛场决定性瞬间!

快手技术

视频 渲染

记录一起非数据热点引起的TiKV负载不均衡

TiDB 社区干货传送门

故障排查/诊断

解决tiup‘ssh: unable to authenticate’报错

TiDB 社区干货传送门

集群管理 管理与运维 故障排查/诊断 扩/缩容

花2小时成tidb专家--云上资源特别贵kv业务的节省

TiDB 社区干货传送门

8.x 实践

手把手教你修改 TiDB 监控告警阈值

TiDB 社区干货传送门

集群管理

从原理到实践,GraphRAG 如何提升 LLM 的摘要总结能力?

可信AI进展

TiKV 事务介绍

TiDB 社区干货传送门

TiKV 源码解读

音乐制作工具:Studio One 6 (Win&Mac) 激活版

你的猪会飞吗

Studio One 许可证 Studio One 破解 Studio One 6下载

花第1小时成tidb专家--云上资源特别,贵公司让我省钱ap篇

TiDB 社区干货传送门

8.x 实践

北京银行如何利用 TiDB 实现20个关键业务系统的高效运行

TiDB 社区干货传送门

功能发布-事件分析之漏斗分析

ClkLog

数据分析 埋点 开源软件

什么是CSPO及成为CSPO的好处?

ShineScrum

断崖式领先!百度搜索登顶AI产品榜国内第一

Geek_2d6073

AI2021矢量图形软件:Illustrator 2021 Win/Mac 直装版

你的猪会飞吗

mac软件下载 AI2021软件下载

操作ArkTS页面跳转及路由相关心得

OpenTiny社区

开源 前端 OpenTiny ArkTS

头部保险公司国寿财核心系统采用 TiDB 实现信创替换并实现重大突破

TiDB 社区干货传送门

实践案例

解锁未来财富密码:AI自动化副业创收班——终身财富加速器

霍格沃兹测试开发学社

INAIR 发布新款 AR 空间计算机 INAIR 2 ,定位移动大屏生产力工具

新消费日报

TiDB 执行计划代价模型分析

TiDB 社区干货传送门

性能调优 TiDB 底层架构

TiDB v7.5.3 发版,听说升级后又可以躺平两年

TiDB 社区干货传送门

版本升级 新版本/特性解读 7.x 实践

手摸手教你,从0到1开发一个Chrome浏览器插件

左诗右码

Chrome Extension

如何使用C# 获取Windows系统信息以及CPU、内存和磁盘使用情况

哦豁完蛋了

万界星空科技低代码云MES系统

万界星空科技

低代码平台 mes 云mes 万界星空科技 低代码云MES

我当初为什么选择了tidb抛弃了postgresql

TiDB 社区干货传送门

性能测评

TiDB主键锁(primary key lock)问题诊断

TiDB 社区干货传送门

故障排查/诊断

堡垒机高可用主备模式部署定义以及优势讲解!

行云管家

等保 堡垒机 堡垒机品牌

一年同行:我的TiDB社区之旅 

TiDB 社区干货传送门

人物访谈

GC异常导致空间不释放,如何通过 tikv-ctl recover-mvcc 修复

TiDB 社区干货传送门

故障排查/诊断

如何为实时音视频设计小且优的深度学习模型?(上)_文化 & 方法_声网_InfoQ精选文章