写点什么

腾讯云智能语音行业落地探索与实践

  • 2020-02-15
  • 本文字数:2521 字

    阅读完需:约 8 分钟

腾讯云智能语音行业落地探索与实践

本文梳理了智能语音技术发展路线,行业现状以及其面临的挑战等相关情况,并详细阐述了语音技术的常见落地场景以及相应的一些优化。同时,分享了腾讯云智能语音落地案例,为语音技术的实践使用提供借鉴,来共同推动语音技术的交流和发展。

一、语音识别基础原理(ASR)


图 1 语音识别基础原理示意图


语音识别技术原理如图 1 所示:首先需要利用相关技术对声音进行特征提取并建立声学模型,然后结合词典,语言模型等方法,在一定的搜索空间内进行搜索和解码最终得到结果。

1.1 业界语音识别水平及面临的挑战

现有业界的语音识别技术在理想条件下普遍能达到 97%,这个理想条件包含背景安静,近场,普通话标准,朗读等条件。但是现实中往往会面临对识别器的效果产生恶化影响的情况,如,发音人的口语化严重,轻度口音,在这种程度较轻的情况下,业界依然能够保持 85%-90%的识别正确率。


进一步,如果语音背景嘈杂,发音人远离拾音器或者存在严重的口音叠加,这种情况下,识别率会有明显的下降。


总结语音识别面临的挑战,如下列所示:


  • 噪声影响:例如车载环境下会有回声以及各种噪声源。

  • 远场识别:麦克风和声源距离过远时收音识别效果较差。

  • 专业领域识别:导航、办公、旅游、美食等不同场景有语言模型。

  • 方言口音:全球有上千种语言,中国的方言种类也非常多。

  • 口语化:不同情绪下语速、声调不同,吞字、结巴会造成音频质量参差不齐。

  • 高质量收音:在多人、声音嘈杂的场景下,如何“听清楚”。

二、语音合成(TTS)

语音合成在早些时候并不热门,但是随着技术的成熟和依赖高质量沟通体验的人机沟通的发展又逐渐热门起来。另外,现在业内很多推销及客服电话已经实现机器人打电话的过程甚至沟通能力,在这种情况下需要高质量的语音合成技术来有效降低用户直接挂断电话的概率。


语音合成可以简单理解为,将文字转化为拟人化的声音,满足多种场景对不同声音的需求,完成人机语音交互的闭环的过程。


当前业内最热门的技术是 Google 主导开发的 WaveNet 引擎,其对应 MOS 值达到了 4.5+,而真人录音的 MOS 值在 4.4+左右,几乎可以以假乱真。

2.1 语音合成面临的挑战

同语音识别一样,语音合成也面临很多的挑战。声音也要具备多适应的特点,在不同的场景需要不同的声音以及用户提出的语音定制化的要求,这些需求对语音合成技术提出下列所示的挑战:


  • 语音定制化:声音也是品牌的代表,追求品牌的公司不愿意共享声音

  • 录音时长:合成要求一定量的高质量录音,会带来录音时间及其它成本

  • 声音的适应性:有的声音适合读物朗读,有的声音适合做语音助手

  • 多音字,特殊读法

  • 拟真度:发音准确性,流畅度,抑扬顿挫等一系列因素决定合成效果与真人差距

  • 主观性:对声音好坏的判断有一定个人主观性,难有客观的标准

三、典型落地场景下语音技术的优化

3.1 语音输入法

语音输入法最早是内嵌到手机中的,通常是手机厂商像 Google,苹果,三星等这些公司主导在做,后续才逐渐出现在输入法软件,如讯飞,百度,搜狗等。


用户在实用场景或者 APP 中,通用语音输入法一方面由于需要切换才能进行相关操作,缺乏灵活性,另外一方面无法根据场景或者 APP 进行定制化,如场景热词的定制。因此,现有语音输入法的发展趋势为从输入法软件向 APP 内部迁移,如王者荣耀中的语音输入文字交互的场景。

3.2 录音转写(人与人交互)

录音转写主要是用于服务质量,甚至责任的判定,如话务员日常跟客户交流的话术是否符合标准。它能够有效解决:人工抽检速度慢,覆盖率低;标准不一,无法避免个人主观性影响;成本高,需要大量人力,且需要定期培训、抽查等等难题。


不同于语音输入法场景,是人与机器沟通,人会下意识“迁就”机器而刻意放慢语速,而录音转写面对的是人与人的沟通,会面临交互口语化程度高,背景噪声不可控等问题,因此大大提升了录音转写的难度。实践证明,能有效提高录音转写准确率的方法如下:


1)选择正确的引擎参数。如:采样率:8K or 16K,单声道 or 双声道。


2)尽可能提升录音质量,降低背景噪音,减少无关声音的输入,使说话人不要远离麦克风,不要采用大压缩比的音频格式。


3)定制化提升,语料训练,热词。

3.3 客服机器人

经过大量探索和实践证明语音最大落地场景就是机器人。例如,客服场景,它面临的 80%以上的问题都是重复的,因此机器人的使用能够大大的减轻客服人员的压力。而语音机器人结合语音识别,语音合成等等技术,实现多渠道的覆盖,为用户提供更好的体验。可以说基于人工智能的客服系统逐渐变为企业的竞争力。


语音技术的发展也为新时代数字化服务提出了更高的要求,如:更好的人机交互体验,更丰富的智能化功能,更多样的人机交互渠道。简而言之,语音是人类最自然的沟通方式,语音技术与机器人能力的结合会带来全新的服务体验。

四、腾讯云智能语音落地案例分享

腾讯云在智能语音方面已经有一些成功的落地方案,包括跟金融行业,故宫,亚朵酒店等的一些合作。


对于金融级任务机器人,主要完成一些基础转账操作,用户通过语音进行人机交互,其中包含银行卡的选择,转账金额的确认,最终转账等功能,是在金融行业语音交互上的进一步探索。


在跟故宫的联合合作中,主要是对故宫展品的介绍进行语音合成。用户可以通过扫描相应的二维码来获取语音的展示,这些合成的语音质量非常高,拟人化强。


在此同时,跟亚朵酒店的合作中,利用“小微”智能音箱打造智慧酒店的行业智能解决方案。在酒店中,接入相关设备,他可以听得懂、看得见。这是一个专门适合懒人的黑科技,只需要张开嘴轻声呼唤"HI,小微",然后通过语音交互令窗帘、音箱、灯光、空调都在掌握之中。除此之外,它还可以查询天气、交通路线、新闻资讯、查询机票等。该方案已经在北京,深圳等城市落地和使用。


另外语音技术也可以应用在其他的场景中。例如在视频中,实现音频判断是否违规的鉴别能力;在记录方面,可以应用在法庭记录等场景,节省大量的人工的工作;也可以应用在翻译和同传方面。


作者介绍


倪捷,腾讯云高级产品经理。北京邮电大学硕士。现在腾讯云大数据与人工智能产品中心 AI 应用产品组担任高级产品经理,负责智能语音相关 AI 产品,拥有互联网、金融等行业人工智能落地的丰富经验。


本文转载自公众号携程技术(ID:ctriptech)。


原文链接


https://mp.weixin.qq.com/s/tNimughQ0mwKSgbFvwXSlw


2020-02-15 17:291613

评论

发布
暂无评论
发现更多内容

【网易云商】记一次实遇的 MySQL--index merge 死锁历程

网易云信

MySQL 数据库 数据库死锁

OneFlow源码解析:Eager模式下的设备管理与并发执行

OneFlow

车载小程序改善车载设备体验与性能,打造智能出行生态圈

没有用户名丶

小程序容器

小巧简单的图像处理软件:Acorn 激活版

真大的脸盆

Mac 图像处理 Mac 软件 图像编辑工具

类 ChatGPT 开源软件,开发者用的上吗?

开源雨林

人工智能 开源软件 ChatGPT

窗口管理器:Lasso 中文激活版

真大的脸盆

Mac Mac 软件 窗口管理 窗口管理工具

在 Flutter 多人视频中实现虚拟背景、美颜与空间音效

声网

flutter AI 虚拟背景 美颜

得帆云iPaaS是主数据必备工具

得帆信息

集成

中间件:数字化时代系统集成商的得力助手

FinFish

中间件 系统集成 小程序容器 软件中间件

不会性能调优,被面试官狂虐!全靠阿里Java性能调优全彩手册死撑

做梦都在改BUG

Java 性能优化 JVM 性能调优

降本增效:12种常见接口优化方案总结

程序员小毕

Java 程序员 性能优化 后端 架构师

微前端架构的业务价值:实现独立部署、快速迭代和按需加载

FinFish

微前端 小程序容器 小程序化 微前端框架

MobTech|移动应用开发中的消息推送

MobTech袤博科技

数禾科技 AI 模型服务 Serverless 容器化之旅

阿里巴巴云原生

阿里云 Serverless 云原生 Knative 容器化

Rainbond的 Gateway API 插件制作实践

北京好雨科技有限公司

Kubernetes API Gateway rainbond

通过 Amazon Managed Microsoft Active Directory 运行混合 Active Directory 服务

亚马逊云科技 (Amazon Web Services)

Amazon

从数仓发展史浅析数仓未来技术趋势

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

数仓如何进行表级控制analyze

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

C++开发者必读经典书籍推荐

小万哥

c++ 程序员 后端 开发 推荐书籍

Flink CDC 专题首发|每天 10 分钟,解锁新一代数据集成框架

Apache Flink

大数据 flink 实时计算

海泰方圆出席首届工业和信息化领域商用密码应用峰会

电子信息发烧客

火山引擎DataLeap一招教你避坑“数据开发”中的资源隔离问题

字节跳动数据平台

大数据 数据治理 资源隔离 数据研发 企业号 3 月 PK 榜

中康数字科技:基于大模型的医学文本信息处理与抽取

飞桨PaddlePaddle

龙蜥白皮书精选:跨云-边-端的只读文件系统 EROFS

OpenAnolis小助手

镜像 操作系统 白皮书 龙蜥技术 EROFS

MobTech|如何使用秒验

MobTech袤博科技

【网易云商】记一次实遇的 MySQL--index merge 死锁历程

网易智企

MySQL 数据库

局域网IP扫描软件:IP Scanner Pro 激活版

真大的脸盆

Mac Mac 软件 局域网管理 IP扫描工具

腾讯云智能语音行业落地探索与实践_技术管理_倪捷_InfoQ精选文章