写点什么

如何为实时音视频设计小且优的深度学习模型?(上)

  • 2019-11-30
  • 本文字数:1349 字

    阅读完需:约 4 分钟

如何为实时音视频设计小且优的深度学习模型?(上)

在 11 月 25 日,DevFest 2018 在上海如期举行。声网 Agora 首席科学家钟声与在座的上千位开发者分享了演讲《Deep Learning for MobilePlatforms: Complexity and Performance Analysis》。以下是由 GDG 整理发布的演讲实录。

开场白

最近在微信群里看到一张很有意思的图,大家应该都见过大街小巷地铁站旁边的手机贴膜吧?但这张图的牌子上写的不是「手机贴膜」而是「模型调参」。用这个例子虽然有些不恰当,但人工智能学习算法确实正在成为我们生存的必杀技,可见人工智能有多火。

从 AI 的应用开始

回到我们今天的主题,我想问,今天的午餐和深度学习有什么共同之处?餐盒和黑盒,都是盒子。餐盒有一个沙拉、主菜和餐后的水果。黑盒子打不开、看不到。


今天的演讲试图稍稍进入黑盒里能看一下,作为工程师,我们都想知其然,也知其所以然。我就基于我们所做的工作稍稍解密一下深度学习某些方面。


声网主要提供实时音视频通信传输服务、编解码及前后处理等等,我们更多的聚焦在通信实时交互领域。


现在的社交娱乐应用里面有很多 AI 的应用。美颜,贴纸,包括一些交互动作的识别,变脸、变声都是属于风格转换,AI 算法在这些方面有很好的应用。


除了这些,AI 在后处理端也有很多应用。比如如何提升比较模糊的图像的细节,更清晰地呈现给大家,提高收视的体验;又比如由于网络传输线路上有丢包,接收的数据有失真,这个也可以利用 AI 算法来补偿。


AI 在云端也有更多的应用,比如内容的监管,比如黄色图片的鉴别,以及识别暴力图像,还有语音变成文本,以及情感计算等等,这些很多在实时通信领域里有非常好的应用。

超分辨率恢复模糊图像

下面以恢复模糊图像作为一个例子,介绍人工智能的深度算法和应用。


我们都知道超分辨率(超分,SR)对恢复细节有帮助。在我们的场景下,由于网络带宽受限,会产生丢包,因而此时会以低码率压缩和传输图像,解码出来的图像通常是会模糊一点,影响收视体验。尤其是在直播应用里,用户希望看到清晰的面容和听到清晰的声音。


超分是我们后处理的一步,作为跟前面的处理不相关的一个处理,这一步放在最后。视频源经过编码在网络上传输,解码器收到后经过解码出来是一个模糊的图像,经过超分辨率处理把细节提升或者放大,再显示出来。


深度神经网络已经被证明了可以较好地生成图像的细节。GAN 模型是一个非常有效的模型,它也是我们超分算法的基础模型,接下来主要是以 GAN 来做性能和复杂度的分析。

GAN 模型

下面介绍一下 GAN 的基本思路。它通常包含两个网络,一个是生成器,一个是判别器,这两个模型以又合作又对抗的方式运作,最后达到一个平衡,使得生成器能够产生以假乱真的数据,例如:


  • 当判别器接收到的是真实的图像数据,判别器会把它接受为一个真实的数据。

  • 当生成器输入的是一个低分辨率的数据,我们想生成高清的数据,希望生成器出来的数据像真的一样。但判别器的任务正好相反,它尽量不让生成的数据蒙混过关,并且要把它踢出去。


一旦被区别出来之后,生成器会反复训练、调参,使得生成的数据更像真的;判别器也会反复训练、努力提高自己的能力,鉴别假数据的能力越来越强。可谓道高一尺魔高一丈,最后二者收敛的时候判别器再也不能区分生成器生成出来的数据是真的还是假的,这个时候的结果就被判别器接受了。


最近几年在顶级 AI 会议上,三分之二以上的文章可能跟 GAN 有关的。


2019-11-30 22:11593

评论

发布
暂无评论
发现更多内容

软件测试 | 测试开发 | 环境问题还是测试的老大难?两个步骤轻松搞定

测吧(北京)科技有限公司

测试

死熬三天三夜,阿里高工码出Java150K字面试宝典,却遭Github全面封杀

Java-fenn

Java 编程 面试 java面试 java;

大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?

明哥的IT随笔

hadoop spark hive YARN CDP

分享面试阿里、京东、网易等大厂后的面经及面试心得—远程面试

Java-fenn

Java 程序员 技术 面试 java面试

两年工作经验,三面拼多多,最终获得offer!(面经总结)

Java-fenn

Java 编程 程序员 面试 java面试

数据中台必备的4个核心能力

阿泽🧸

数据中台 9月月更

名列前茅!亚信科技AntDB入围工信部电信行业数据库场景榜单

亚信AntDB数据库

AntDB AntDB数据库

什么是企业知识管理体系?它的基本原则是什么?我们又该怎样做?

Baklib

知识管理 知识 知识管理体系

金三银四面试总结篇,汇总2022Java面试突击班后的面试小册

Java-fenn

Java 程序员 面试 java面试 java;

中小企业数字化转型需求增加,如何才能做好?先从在线协作工具开始!

Baklib

数字化转型 企业 在线协作文档 在线协作

百亿市场遭「卡脖子」,国产工业软件兴起正当时

ToB行业头条

软件测试 | 测试开发 | 移动端App自动化之App控件定位

测吧(北京)科技有限公司

测试

MobTech 短信验证 Unity插件

MobTech袤博科技

ios android 短信验证

2022前端面试遇到的手写题总结

helloworld1024fd

JavaScript 前端

史上最详细的一线大厂Mysql面试题详解

小小怪下士

MySQL 面试 java面试

阿里巴巴高并发架构到底多牛逼?是如何抗住淘宝双11亿级并发量?

Java-fenn

Java 编程 程序员 面试

阿里云物联网平台架构——业务架构类

阿里云AIoT

大数据 物联网平台 IoT 平台架构 设备管理

Java面试笔试题大汇总一(最全+详细答案)

小小怪下士

大厂面试 java\ 面试真题 Java 面试题

【荣耀帐号服务】手把手教你快速web接入

荣耀开发者服务平台

前端 Web 服务器 安卓 honor

什么是企业帮助中心?为什么要花钱建立?看这篇文章你就懂了!

Baklib

SaaS 企业 帮助中心 在线编辑

帮助中心就是在线版的产品使用说明书?并非如此!

Baklib

产品 产品经理 帮助中心 在线编辑 产品说明书

解密数字时代 AI 加持之道,网易智企联合机器之心发布 AI 应用实践白皮书

网易云信

人工智能 音视频技术

肝完Alibaba这份面试通关宝典,今年的offer我拿手软了

Java-fenn

Java 程序员 面试 java面试 java;

行业规模将达百亿,低代码是 “银弹” 还是 “鸡肋”?

SoFlu软件机器人

RabbitMQ的深入理解和最简单的用途说明

小小怪下士

Java 程序员 架构 RabbitMQ

软件测试 | 测试开发 | 精准化测试原理简介与实践探索

测吧(北京)科技有限公司

测试

蚂蚁智能容量团队推出 TMaestro 智能参数调节产品

TRaaS

产品 互联网技术

工作一年之后,这6个技术栈可以让你平均涨薪50%(涨薪篇)

Java-fenn

Java 编程 程序员 面试 java面试

【喜讯】亚信安慧通过CMMI5级认证

亚信AntDB数据库

AntDB AntDB数据库

MASA MAUI Plugin 安卓蓝牙低功耗(二)蓝牙通讯

MASA技术团队

blazor MASA MAUI Xamarin MASA Blazor

Mybatis工作流程及其原理与解析

小小怪下士

Java 程序员 架构 mybatis

如何为实时音视频设计小且优的深度学习模型?(上)_文化 & 方法_声网_InfoQ精选文章