QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

智能语音技术在字节跳动内容平台的演进和应用实践

  • 2021-09-08
  • 本文字数:3713 字

    阅读完需:约 12 分钟

智能语音技术在字节跳动内容平台的演进和应用实践

AI 技术正在成为辅助内容生产和传播的“利器”。尤其随着现在语音、文本、图像、视频等不同模态的信息层出不穷,以 AI 技术作为“创作工具”将为内容生产带来新变革。


以字节跳动为例,字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各个阶段,在这个过程中,内部对智能语音技术的需求日益增强,如有声书内容生产,短视频中的内容审核、自动字幕和配音功能等。


自 2017 年开始重点布局智能语音技术以来,该技术已广泛应用在字节跳动内部的教育、视频、小说、客服、硬件、音乐、办公、游戏、广告等业务场景。实践证明,作为新型的生产工具,智能语音技术能够极大地提升 AI 内容生产和创作领域的生产力。


在将于 11 月 5 日 - 6 日举办的 AICon 全球人工智能与机器学习大会(北京站)2021 上,字节跳动 AI-Lab 智能语音/语音合成 Leader 殷翔博士将作为“AI 与产业互联网结合”专场的讲师,


InfoQ 有幸提前对殷翔博士进行了专访,他详细介绍了智能语音技术上在字节跳动的研发进展以及应用实践,分享了智能语音赋能内容生产的思考。


以下为 InfoQ 与殷翔博士对话全文:

字节跳动的智能语音技术布局


InfoQ :殷老师您好,很高兴有机会采访您,首先请您做一下自我介绍,您自何时加入字节跳动,以及目前主要负责的工作?


殷翔: 我是 2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。


InfoQ:字节跳动大概是从什么时候开始布局智能语音技术的?公司内部对智能语音技术的需求主要来自哪些场景?


殷翔: 字节跳动是从 2017 年底重点投入智能语音技术的。公司对智能语音技术需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等。


InfoQ:字节跳动如何定位智能语音技术,如何看待它在公司整体的 AI 布局中所处的位置?


殷翔: 字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各阶段,如何高效理解、创作、互动和分发内容,给 AI 技术带来了机遇和挑战。随着深度学习和机器算力的不断发展,智能语音技术已经迈进了端到端时代,并借助丰富场景下的海量数据,显著提升了内容理解的精度、内容创作的质量。


智能语音技术在公司整体 AI 布局中扮演的角色之一是内容创作工具,例如:通过自然语言理解、语音合成和音乐生成等技术开发的有声书内容生产,能够将番茄小说海量网文转成有声书,供用户聆听。在短视频方面,能够辅助用户通过字幕自动添加、个性化配音和滤镜玩法创造出内容丰富的作品。


InfoQ:除了您所在的团队(AILab),字节跳动内部还有哪些团队在做语音技术的研究,各部门的侧重点分别是什么,又是如何协作的?


殷翔: 字节跳动产品研发和工程架构部门也在做相关研究。AILab-智能语音属于 AI 中台,使命是做“大而全”的技术支持,对某些需要深入合作的业务部门,会专门派同学 BP,进行“精且深”的解决方案打磨。最终我们的愿景是将 AI 中台能力做成定制方案,提供 ToB。产品研发和工程架构部的语音部门需要集中支持所属部门业务方向,与业务一起成长,做到 BU 化。在协作方面,对于共有能力,会依照业务场景进行划分。对于差异化能力,会依照业务方的需求,形成组合方案,提供支持。


InfoQ:近期字节跳动在智能语音领域取得了哪些重要技术成果?


殷翔: 在语音识别方面,通过无监督预训练+少量有监督的技术,参加国际低资源多语言语音识别挑战赛(MUCS21),取得多语言语音识别赛道第二名;音乐技术方面,我们参加了 MIREX2020 翻唱识别竞赛,取得第一名,mAP 领先第二名 8%;语音合成上,我们发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务;


InfoQ:端到端语音识别时代已来临,端到端识别技术近些年成为了学术界和业界研究的热点。目前,字节跳动在端到端识别算法的研究和应用进展如何?


殷翔: 我们在 RNN-T 上做了不少原创性工作,包括加速 RNN-T 的训练和推理,结合端云一体进行了多项创新,目前已将该技术上线到各类业务场景中。同时,我们还在打造下一代端到端识别算法框架,并已取得了较大的进展。


InfoQ:接下来字节跳动在语音技术领域的重点研究方向是什么;您所在的团队接下来的规划是?


殷翔: 以语音识别和合成为例。语音识别方向上,重点研究方向包括结合无监督预训练提升低资源语种的识别率、结合多模态信息的场景分类和语音识别、新一代端到端识别框架;语音合成方向上,重点研究方向包括文本到波形的端到端联合建模、低质少量的跨语种音色复刻、直播流式场景下的音色转换、多模态感知型虚拟形象等。我们团队接下来重点发展的规划,包括多语种的视频字幕和配音、多模态语音交互链路、搭建有声内容生产平台等。

智能语音广泛落地于字节跳动的内容平台


InfoQ:你们团队研发的语音技术目前在字节跳动内部的哪些场景应用?公司外部,有哪些应用场景?


殷翔: 团队研发技术落地于教育、视频、小说、客服、硬件、音乐、办公、ToB、游戏、广告等内部业务场景,主要以服务调用或 SDK 的形式使用。对于外部场景,会通过火山引擎控制台对外提供服务。


InfoQ:你们如何评估智能语音技术在各个场景的应用效果?


殷翔: 我们会通过调用量、语音处理/生成时长等纯技术指标来衡量使用情况,同时也会通过业务侧拆解出的 DAU、留存、渗透时长、效率提升等指标来衡量效果。


InfoQ:在字节跳动的内容平台由图文-音频-视频不断演进的过程中,如何看待语音技术的重要性?


殷翔: 语音技术在内容形式不断的演化过程中,可以持续通过对语音和语义的理解,来帮助平台筛选出违禁的内容。通过机器+人工的方式,大大提升审核的效率;同时,通过对语义的理解和语音/图像信号的重建,为平台提供丰富的不同模态内容,供用户消费。


InfoQ:字节跳动的语音技术在有声书合成应用场景中,有没有一些难突破的技术点,是怎样解决的?最终达到的朗读效果与真人朗读相比,还有哪些差距?


殷翔: 在有声书合成应用场景下,存在的难点主要是如何接近真人播讲的效果,使得最终的合成音频能够体现出不同角色在不同上下文环境里的效果。我们会通过小说篇章理解来将网文转换成剧本,标识出每句对话是哪个角色来读和以什么情感来读,再采用对应音色结合情感合成得到音频内容。最终的朗读效果与真人相比,差距在于无法做到根据不同上下文语境展现不同风格,只能表现出音库单一的录制风格。


InfoQ:针对有声书合成,共训练了多少种声音,是否有根据不同(年龄)人群的需要和兴趣定制更个性化的声音或者多(分)角色有感情朗读?或者是否有配合不同的书籍类型去创作不同的声音?


殷翔: 针对有声书合成共训练了 30 多种声音,我们目前根据番茄小说平台用户喜欢的头部小说,归类出头部书中最感兴趣的角色,再通过机器+人工的方式建立书中人物和音色的关系。从而让用户能够享受合适的多角色情感朗读。


InfoQ:近几年短视频非常火热,单字节跳动的短视频平台就拥有数亿日活的用户,每天会产生数量庞大的短视频,在针对短视频的二次智能创作方面,语音技术具体会进行哪些创作?用户的反馈效果如何?


殷翔: 语音技术会进行字幕添加、文字配音和模版玩法等,从而提升视频的丰富度。这很大程度上促进了用户的投稿率,成为视频工具不可或缺的功能。

智能语音技术赋能内容生产: 差异化、效果优、迭代快、低成本是未来趋势


InfoQ:与以前的视频化相比,现在已经进入了超视频化时代,内容在更多地往视频演进。超视频时代的来临,对智能语音技术在视频场景的应用带来了哪些机会和挑战?


殷翔: 机会在于我们可以面向广大用户群体提供丰富的内容创作工具,挑战则在于我们需要更理解用户,分析清楚采用何种功能能够激发他们的创作兴趣。


InfoQ:字节跳动的智能语音技术,从研究方向和落地应用来看,有哪些独特的优势?


殷翔: 我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的,一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来。针对落地应用,我们会 BP 到不同的业务部门,与他们的业务指标对齐,再拆解成技术指标跟进。因此,AI 中台既能够直接拿到业务收益,业务目标也可以与 AI 技术目标同步。


InfoQ:据您判断,接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势?


殷翔: 智能语音技术作为生产工具,是可以极大提升 AI 内容生产和创作领域的生产力的。未来行业内,一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展,借助技术的提升,不断推动 AI 产业化和规模化的进步。


采访嘉宾介绍:


殷翔博士,字节跳动 AI-Lab 智能语音/语音合成 Leader。2011 年毕业于中国科学技术大学电子工程与信息科学系,2016 于本校语音及语言信息处理国家工程实验室获得博士学位,研究方向为语音合成中的神经网络声学建模方法研究。2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。在各类国际语音会议和刊物中发表论文 13 篇,国内外专利 10 余篇。

2021-09-08 13:352786
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 554.8 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

Context那些你不知道的事?,张口就来

android 程序员 移动开发

华云大咖说 | 安超DCM运维场景解决方案

华云数据

Flutter 中的 JSON 解析(1),androidsdk环境配置

android 程序员 移动开发

ConstraintLayout 2,android双击事件响应

android 程序员 移动开发

DialogFragment探索与实现,音视频编解码技术

android 程序员 移动开发

Flutter Candies 一桶天下,kotlin编程软件

android 程序员 移动开发

Flutter 仿掘金推特点赞按钮,kotlin中文版

android 程序员 移动开发

Flutter 如何发布安卓应用?,flutter文档发布组件

android 程序员 移动开发

Flutter 官方尝试放只“鸽子”来简化Native插件开发,复习指南

android 程序员 移动开发

ConstraintLayout 1,flutterrow换行

android 程序员 移动开发

DateUtils(一个日期工具类),androidauto百度地图

android 程序员 移动开发

如何打造实时性的弹窗?

神策技术社区

UI sdk Android;

Flutter RichText支持图片显示和自定义图片效果,经典Android开发教程

android 程序员 移动开发

Flutter 与 Compose怎么选?小孩子才做选择,kotlinwindows桌面开发

android 程序员 移动开发

Flutter 仿掘金微信图片滑动退出页面效果,写给程序员的Flutter详细教程

android 程序员 移动开发

Flutter 入门与实战(十三),安卓framework层开发

android 程序员 移动开发

Dart _ 什么是Stream,安卓开发不得不会

android 程序员 移动开发

下一代信息技术论坛云操作系统介绍

架构 操作系统

Flutter _ 日志还能这么打印,太秀了!,android移动应用基础教程

android 程序员 移动开发

Flutter 入门与实战(九),android软件开发前景

android 程序员 移动开发

ConstrainLayout 基础教程2,2021Android精选面试实战总结整理

android 程序员 移动开发

Dart Flutter 1,flutter页面跳转动画

android 程序员 移动开发

EventBus核心原理其实保存这三张图就可以弄懂了,收藏一下

android 程序员 移动开发

Flutter Android 端 FlutterInjector 及依赖流程源码分析

android 程序员 移动开发

Flutter 中的 JSON 解析,事件分发机制Android

android 程序员 移动开发

JMH实践记录

Clarke

JMH性能基准测试

FART:ART环境下基于主动调用的自动化脱壳方案,androidndk开发教程

android 程序员 移动开发

filter、interceptor、aspect不知如何选择,移动应用开发案例教程

android 程序员 移动开发

Flutter Android 工程结构及应用层编译源码深入分析,Android面试题及答案2020

android 程序员 移动开发

Coroutine 基本原理,Android开发大佬的百度美团快手等大厂Offer收割之旅

android 程序员 移动开发

Dart 层如何 兼容 Android 和iOS平台特性 (1),Android开发面试技巧

android 程序员 移动开发

智能语音技术在字节跳动内容平台的演进和应用实践_AI&大模型_刘燕_InfoQ精选文章