解读智能语音技术的2020：跨语种语音技术成高频关键词，商业化“加速度”落地

本文是 InfoQ“解读 2020”年终技术盘点系列文章之一。

2016 年，深度学习和深度神经网络的突破使得智能语音识别的准确率第一次达到了人类水平，也促使智能语音技术进入到落地阶段。尤其是近几年，语音识别技术逐渐走向成熟，在万物互联趋势下，智能语音技术在教育、金融等各个行业落地日益深入。

2020 年，智能语音赛道的发展态势如何，有哪些重大的技术突破，在各行业有哪些应用和落地进展？2021 年，这个赛道又蕴含着哪些发展机会？InfoQ 采访了网易有道 AI 语音团队的负责人孙艳庆，对智能语音领域过去一年的发展进行总结、回顾与探讨，并展望明年的发展趋势。

领域涌现多项重大技术突破，挑战犹在

刚刚过去的 2020 年，智能语音领域出现了多个重要的技术创新与突破。

“跨语种语音技术是智能语音技术在 2020 年的高频关键词。无论是语音识别还是语音合成，都有这样的形式”，孙艳庆表示。

例如，谷歌在 2019 年提出了跨语种的 TTS；苹果在 IOS14 中，推出了新版翻译功能，支持自动的语言和语音识别，无需用户手动预先选择语言。网易有道在今年 9 月上线的王源“明星语音”也借鉴了这个框架。

**孙艳庆认为，Transformer 在更多领域方向（语音/图像）、以及建模技术的不断发展，使得其建模精度越来越强，也是 2020 的一个关键技术突破。**今年 10 月，网易有道上线了基于 Transformer+CTC 架构的新一代有道 ASR 引擎，实践验证，语音识别准确率和用户体验得到了显著提升，大幅超越了线上采用主流算法的效果。

不过现阶段，智能语音技术在研发上仍存在一些技术难点待攻克。例如，自由对话技术、鸡尾酒场景下的语音识别等技术面临不少挑战。

自由对话技术。

自由对话技术就是让机器理解人类语言表达的意图、以及针对性进行回复的技术，被誉为“人工智能皇冠上的明珠”。近些年 NLP 技术迭代非常快，Transformer (2017), BERT (2018), GPT 系列 (2018, 2019, 2020)，通过更复杂的模型、更多的数据，带来了技术指标上的突飞猛进，甚至在某些领域超过了人类。这些技术也逐渐迁移到语音、图像等其它 AI 领域。

自然语言是人工智能领域最难、最重要的技术。清华大学计算机系自然语言处理与社会人文计算实验室副教授刘知远曾在《自然语言理解难在哪儿》一文中写道，“自然语言理解正是由于其创造性、递归性、多义性、主观性和社会性等特点，既让人类语言具备强大的表达力和生命力，同时呈现出非常复杂而难以捉摸的图景。

“而自由对话技术是建立在自然语言理解的基础上的一种应用形态（先理解再回答），本身更是难上加难”，孙艳庆说。

鸡尾酒场景下的语音识别

鸡尾酒场景下的语音识别，当多人同时说话（例如鸡尾酒会）、叠加上背景音乐的干扰，互相很难听清对方的讲话内容，需要离得很近、竖起耳朵听、且大声说话、最后还得靠“猜”。人都如此，更何况机器呢？

目前业界在多麦克风前端信号处理、语音分离、鲁棒性训练等多项技术上进行了尝试，来研究和优化该场景的识别效果。目前在一些场景下已经取得了明显的进展，例如语音分离、或者混合语音识别，也吸引着更多学者加入这一研究中。

未来，可以预见地是，上述两类需求将越来越多，值得加大研究力度。

智能语音技术加速落地的一年

2020 年，疫情带来的影响覆盖全球，改变着每个人的生活和工作方式，也为各个行业带来了一定程度地冲击和变革。

疫情难得地为一些行业带来了发展机遇。远程会议、在线教育、在线办公，需求增长迅速。这对音视频通讯和交互技术提出了更多的需求。

智能语音技术在落地和商业化的发展由此得到了极大的推动，包括但不限于 VOIP、拾音和降噪、语音识别、口语评测、语音合成等。

以网易有道为例，在线教育场景对智能语音技术提出了更多的需求，现有的智能语音技术大都已经完成了落地和商业化，迫切需要加紧研发更多有需求的技术

2020 年，智能语音技术在线教育、在线办公、在远程会议等行业得到了很好的落地。

其中在教育赛道的应用尤为突出，且对技术本身提出了更多的要求和期望。以网易有道为例，其拥有的 ASR（语音识别）、TTS（语音合成）、CAPT（口语评测）和 AFE（声学前端信号处理）等核心智能语音技术，目前已经广泛应用于有道各产品线，包括有道精品课、有道词典、有道词典笔、有道翻译官/翻译王、有道云笔记、有道乐读、有道数学等。

孙艳庆认为，现阶段，智能语音技术在落地过程中还存在两大挑战：

挑战之一，产品时间节点紧张。

产品落地都有明确的时间点，很难改变。为了确保产品节点，有时候留给算法落地的时间可能只有一个月，还包括集成、测试等环节。如果在此之前该算法没有 ready，或者需要比较大的改动，研发并落地、时间根本不够。

一个比较好的解决方法是，负责算法的人员尽早参与产品规划和讨论阶段；另一方面，技术人员需要技术有前瞻性布局，结合对用户场景的理解，提前规划一些研发方向预研工作。孙艳庆表示，有道内部的产品部门和算法部门建立了很多沟通机制，通过这些渠道，算法团队可以更好地结合未来业务场景去规划算法研发路线。

挑战之二，用户真实使用习惯可能和产品预期不一致。

实践是检验真理的唯一标准。而在产品面世之前，无法获得未来用户的所有使用习惯。所以，好的产品需要不断迭代，一来完善技术方案，二来针对用户日益增长的需求来迭代产品。

而好的算法，框架的选择至关重要，否则后期还要推倒重来。这就需要在技术算法方案的设计阶段，尽量增强方案的鲁棒性，来应对一些非典型/预期场景，同时尽可能早的寻找目标用户、并搭建匹配的开发集。

总结和展望

孙艳庆表示，目前，智能语音技术处在快速落地阶段，除了常规单一技术（ASR/TTS/CAPT）的直接落地，更多的是深度结合业务场景的定制形态，甚至是多项技术组合的形式。

智能语音技术在 2020 年的发展是“加速度”的，在突破性的技术创新之外，很多之前还在研究阶段的语音技术也已经在商业系统中得到落地。

孙艳庆预判，未来，智能语音技术的发展将呈现 2 个重要的趋势：

一方面，技术将越来越和产品融合，可能会把单一技术打散、重组，嵌入到产品中，从而给用户更好的综合体验。 例如智能语音客服系统，需要把语音识别、语义理解（包括对话、知识图谱等）和语音合成等多项技术组合使用。

传统做法是把不同的技术串联起来，这样会导致前一级的错误累积到下一级，同时也会导致延时的增大。有些尝试会把语音识别打开，拿出中间的更多解码信息给后续的语义理解模块，既可以增强后续环节的鲁棒性，还能提高响应速度。

另一方面，离线 AI 技术会成为未来业界的普遍趋势。

相比在线 AI，离线 AI 拥有 3 个突出优势：不依赖网络环境，使用场景更没有限制、不会因为网络导致延时体验变差；无需发送用户数据到服务器，没有安全隐私的问题，可以针对用户信息深度定制；端侧算力越来越强，MNN，Tensorflow Lite 等框架支持的越来越好，使端侧 AI 的能力不断提升。

未来，业内会做出更多尝试将很多技术做到设备上离线使用，进一步改善服务稳定性和响应延时，例如网易有道的智能学习硬件—词典笔主打离线场景下的查词和口语学习，集成了多项离线 AI 技术，不依赖网络环境、随时随地都可使用。

孙艳庆判断，2021 年，智能语音领域可能会进入更多的行业，扮演更重要的角色。 对于技术研发来说，企业要更加关注业务落地的可能性，并提前进行相关技术的布局，加大在业务落地的可能性和价值。

采访嘉宾介绍：

孙艳庆，网易有道 AI 语音团队负责人。2010 年获中科院声学所信号与信息处理专业博士学位。主要负责网易有道语音识别/合成/评测/声学前端信号处理等技术的研发、落地工作，以及新技术方向预研和探索等。

创作场景

解读智能语音技术的 2020：跨语种语音技术成高频关键词，商业化“加速度”落地

领域涌现多项重大技术突破，挑战犹在

智能语音技术加速落地的一年

总结和展望

采访嘉宾介绍：