写点什么

智能语音技术在字节跳动内容平台的演进和应用实践

  • 2021-09-08
  • 本文字数:3713 字

    阅读完需:约 12 分钟

智能语音技术在字节跳动内容平台的演进和应用实践

AI 技术正在成为辅助内容生产和传播的“利器”。尤其随着现在语音、文本、图像、视频等不同模态的信息层出不穷,以 AI 技术作为“创作工具”将为内容生产带来新变革。


以字节跳动为例,字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各个阶段,在这个过程中,内部对智能语音技术的需求日益增强,如有声书内容生产,短视频中的内容审核、自动字幕和配音功能等。


自 2017 年开始重点布局智能语音技术以来,该技术已广泛应用在字节跳动内部的教育、视频、小说、客服、硬件、音乐、办公、游戏、广告等业务场景。实践证明,作为新型的生产工具,智能语音技术能够极大地提升 AI 内容生产和创作领域的生产力。


在将于 11 月 5 日 - 6 日举办的 AICon 全球人工智能与机器学习大会(北京站)2021 上,字节跳动 AI-Lab 智能语音/语音合成 Leader 殷翔博士将作为“AI 与产业互联网结合”专场的讲师,


InfoQ 有幸提前对殷翔博士进行了专访,他详细介绍了智能语音技术上在字节跳动的研发进展以及应用实践,分享了智能语音赋能内容生产的思考。


以下为 InfoQ 与殷翔博士对话全文:

字节跳动的智能语音技术布局


InfoQ :殷老师您好,很高兴有机会采访您,首先请您做一下自我介绍,您自何时加入字节跳动,以及目前主要负责的工作?


殷翔: 我是 2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。


InfoQ:字节跳动大概是从什么时候开始布局智能语音技术的?公司内部对智能语音技术的需求主要来自哪些场景?


殷翔: 字节跳动是从 2017 年底重点投入智能语音技术的。公司对智能语音技术需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等。


InfoQ:字节跳动如何定位智能语音技术,如何看待它在公司整体的 AI 布局中所处的位置?


殷翔: 字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各阶段,如何高效理解、创作、互动和分发内容,给 AI 技术带来了机遇和挑战。随着深度学习和机器算力的不断发展,智能语音技术已经迈进了端到端时代,并借助丰富场景下的海量数据,显著提升了内容理解的精度、内容创作的质量。


智能语音技术在公司整体 AI 布局中扮演的角色之一是内容创作工具,例如:通过自然语言理解、语音合成和音乐生成等技术开发的有声书内容生产,能够将番茄小说海量网文转成有声书,供用户聆听。在短视频方面,能够辅助用户通过字幕自动添加、个性化配音和滤镜玩法创造出内容丰富的作品。


InfoQ:除了您所在的团队(AILab),字节跳动内部还有哪些团队在做语音技术的研究,各部门的侧重点分别是什么,又是如何协作的?


殷翔: 字节跳动产品研发和工程架构部门也在做相关研究。AILab-智能语音属于 AI 中台,使命是做“大而全”的技术支持,对某些需要深入合作的业务部门,会专门派同学 BP,进行“精且深”的解决方案打磨。最终我们的愿景是将 AI 中台能力做成定制方案,提供 ToB。产品研发和工程架构部的语音部门需要集中支持所属部门业务方向,与业务一起成长,做到 BU 化。在协作方面,对于共有能力,会依照业务场景进行划分。对于差异化能力,会依照业务方的需求,形成组合方案,提供支持。


InfoQ:近期字节跳动在智能语音领域取得了哪些重要技术成果?


殷翔: 在语音识别方面,通过无监督预训练+少量有监督的技术,参加国际低资源多语言语音识别挑战赛(MUCS21),取得多语言语音识别赛道第二名;音乐技术方面,我们参加了 MIREX2020 翻唱识别竞赛,取得第一名,mAP 领先第二名 8%;语音合成上,我们发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务;


InfoQ:端到端语音识别时代已来临,端到端识别技术近些年成为了学术界和业界研究的热点。目前,字节跳动在端到端识别算法的研究和应用进展如何?


殷翔: 我们在 RNN-T 上做了不少原创性工作,包括加速 RNN-T 的训练和推理,结合端云一体进行了多项创新,目前已将该技术上线到各类业务场景中。同时,我们还在打造下一代端到端识别算法框架,并已取得了较大的进展。


InfoQ:接下来字节跳动在语音技术领域的重点研究方向是什么;您所在的团队接下来的规划是?


殷翔: 以语音识别和合成为例。语音识别方向上,重点研究方向包括结合无监督预训练提升低资源语种的识别率、结合多模态信息的场景分类和语音识别、新一代端到端识别框架;语音合成方向上,重点研究方向包括文本到波形的端到端联合建模、低质少量的跨语种音色复刻、直播流式场景下的音色转换、多模态感知型虚拟形象等。我们团队接下来重点发展的规划,包括多语种的视频字幕和配音、多模态语音交互链路、搭建有声内容生产平台等。

智能语音广泛落地于字节跳动的内容平台


InfoQ:你们团队研发的语音技术目前在字节跳动内部的哪些场景应用?公司外部,有哪些应用场景?


殷翔: 团队研发技术落地于教育、视频、小说、客服、硬件、音乐、办公、ToB、游戏、广告等内部业务场景,主要以服务调用或 SDK 的形式使用。对于外部场景,会通过火山引擎控制台对外提供服务。


InfoQ:你们如何评估智能语音技术在各个场景的应用效果?


殷翔: 我们会通过调用量、语音处理/生成时长等纯技术指标来衡量使用情况,同时也会通过业务侧拆解出的 DAU、留存、渗透时长、效率提升等指标来衡量效果。


InfoQ:在字节跳动的内容平台由图文-音频-视频不断演进的过程中,如何看待语音技术的重要性?


殷翔: 语音技术在内容形式不断的演化过程中,可以持续通过对语音和语义的理解,来帮助平台筛选出违禁的内容。通过机器+人工的方式,大大提升审核的效率;同时,通过对语义的理解和语音/图像信号的重建,为平台提供丰富的不同模态内容,供用户消费。


InfoQ:字节跳动的语音技术在有声书合成应用场景中,有没有一些难突破的技术点,是怎样解决的?最终达到的朗读效果与真人朗读相比,还有哪些差距?


殷翔: 在有声书合成应用场景下,存在的难点主要是如何接近真人播讲的效果,使得最终的合成音频能够体现出不同角色在不同上下文环境里的效果。我们会通过小说篇章理解来将网文转换成剧本,标识出每句对话是哪个角色来读和以什么情感来读,再采用对应音色结合情感合成得到音频内容。最终的朗读效果与真人相比,差距在于无法做到根据不同上下文语境展现不同风格,只能表现出音库单一的录制风格。


InfoQ:针对有声书合成,共训练了多少种声音,是否有根据不同(年龄)人群的需要和兴趣定制更个性化的声音或者多(分)角色有感情朗读?或者是否有配合不同的书籍类型去创作不同的声音?


殷翔: 针对有声书合成共训练了 30 多种声音,我们目前根据番茄小说平台用户喜欢的头部小说,归类出头部书中最感兴趣的角色,再通过机器+人工的方式建立书中人物和音色的关系。从而让用户能够享受合适的多角色情感朗读。


InfoQ:近几年短视频非常火热,单字节跳动的短视频平台就拥有数亿日活的用户,每天会产生数量庞大的短视频,在针对短视频的二次智能创作方面,语音技术具体会进行哪些创作?用户的反馈效果如何?


殷翔: 语音技术会进行字幕添加、文字配音和模版玩法等,从而提升视频的丰富度。这很大程度上促进了用户的投稿率,成为视频工具不可或缺的功能。

智能语音技术赋能内容生产: 差异化、效果优、迭代快、低成本是未来趋势


InfoQ:与以前的视频化相比,现在已经进入了超视频化时代,内容在更多地往视频演进。超视频时代的来临,对智能语音技术在视频场景的应用带来了哪些机会和挑战?


殷翔: 机会在于我们可以面向广大用户群体提供丰富的内容创作工具,挑战则在于我们需要更理解用户,分析清楚采用何种功能能够激发他们的创作兴趣。


InfoQ:字节跳动的智能语音技术,从研究方向和落地应用来看,有哪些独特的优势?


殷翔: 我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的,一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来。针对落地应用,我们会 BP 到不同的业务部门,与他们的业务指标对齐,再拆解成技术指标跟进。因此,AI 中台既能够直接拿到业务收益,业务目标也可以与 AI 技术目标同步。


InfoQ:据您判断,接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势?


殷翔: 智能语音技术作为生产工具,是可以极大提升 AI 内容生产和创作领域的生产力的。未来行业内,一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展,借助技术的提升,不断推动 AI 产业化和规模化的进步。


采访嘉宾介绍:


殷翔博士,字节跳动 AI-Lab 智能语音/语音合成 Leader。2011 年毕业于中国科学技术大学电子工程与信息科学系,2016 于本校语音及语言信息处理国家工程实验室获得博士学位,研究方向为语音合成中的神经网络声学建模方法研究。2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。在各类国际语音会议和刊物中发表论文 13 篇,国内外专利 10 余篇。

2021-09-08 13:352544
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.7 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

工具:Juypter Notebook

正向成长

Jupyter Notebook

DDD战术设计实践

郑印

DDD

crm软件有哪些比较好?国内目前好用的crm系统推荐!

低代码小观

CRM 管理系统 企业管理系统 CRM系统 客户关系管理系统

看完电影《门锁》感觉脊背发凉,智慧园区给你安全感!

ThingJS数字孪生引擎

可视化

【Quarkus技术系列】「云原生架构体系」打造基于Quarkus的云原生微服务框架实践

洛神灬殇

云原生 Quarkus 原生云 11月日更

AI 算法在视频可分级编码中的应用

融云 RongCloud

人工智能 音视频 编解码

如何 30 分钟搭建一个语聊房

融云 RongCloud

双11大促 | 消息推送资源包6折购!一键集成华为、小米等多厂商推送通道

蚂蚁集团移动开发平台 mPaaS

消息推送 push mPaaS 双11 促销

揭秘 MatrixDB 数据库内核技术,可编程的数据库!

YMatrix 超融合数据库

数据库 时序数据库 分布式时序数据库 MatrixDB 超融合时序数据库

活动日程首公布|Apache ShardingSphere Dev Meetup 亮点新揭秘

SphereEx

ShardingJDBC ShardingSphere 技术沙龙 SphereEx

ironSource现已支持自定义广告网络

字节Android Native Crash治理之Memory Corruption工具原理与实践

字节跳动终端技术

字节跳动 Android; 火山引擎

JavaScript 解构赋值 5 个常见场景和实例

devpoint

JavaScript 大前端 ES6 11月日更

优先队列一些记录以及解题思路

数据结构 Go 语言 优先队列

机器人存在的问题挑战

利用这份文档,我成功定位阿里P6,却拿着P7的工资

Java 程序员 后端

彻底理解 AQS我是懂了,你呢?

何小事儿

Java 多线程 并发

糟糕程序员的20个坏习惯

Kaito

架构 程序人生 后端 编程修养

40多场面试,凝聚成了这篇文章!

程序厨

面试 面试技巧 秋招

别看是Java基础,很多人已入坑,java技术栈

Java 程序员 后端

BoCloud博云完成 E 轮融资

BoCloud博云

云计算 云原生 博云

可观测性架构实践

郑印

hadoop nameNode/datanode 稳定性&性能改进点

Clarke

到了2020年,技术水平到底需要达到怎样的程度才能成为顶级的阿里P8架构师

Java 程序员 后端

10月书讯 | 跟着泰拉去冒险

图灵教育

编程 程序员 书单

GaussDB (for Cassandra) 数据库治理:大key与热key问题的检测与解决

华为云开发者联盟

数据库 分布式数据库 key GaussDB (for Cassandra) 数据库治理

浅谈微信朋友圈架构设计

张平

架构实战营

Hudi 在字节实践记录

Clarke

语聊房高质量音乐伴奏的实现

融云 RongCloud

语聊房 音乐播放

【架构设计总结】

Ryoma

FabEdge 和 SuperEdge 联合在边缘 K8s 集群支持原生 Service 云边互访和 PodIP 直通

BoCloud博云

云原生 边缘计算 superedge FabEdge

智能语音技术在字节跳动内容平台的演进和应用实践_AI&大模型_刘燕_InfoQ精选文章