本文梳理了智能语音技术发展路线,行业现状以及其面临的挑战等相关情况,并详细阐述了语音技术的常见落地场景以及相应的一些优化。同时,分享了腾讯云智能语音落地案例,为语音技术的实践使用提供借鉴,来共同推动语音技术的交流和发展。
一、语音识别基础原理(ASR)
图 1 语音识别基础原理示意图
语音识别技术原理如图 1 所示:首先需要利用相关技术对声音进行特征提取并建立声学模型,然后结合词典,语言模型等方法,在一定的搜索空间内进行搜索和解码最终得到结果。
1.1 业界语音识别水平及面临的挑战
现有业界的语音识别技术在理想条件下普遍能达到 97%,这个理想条件包含背景安静,近场,普通话标准,朗读等条件。但是现实中往往会面临对识别器的效果产生恶化影响的情况,如,发音人的口语化严重,轻度口音,在这种程度较轻的情况下,业界依然能够保持 85%-90%的识别正确率。
进一步,如果语音背景嘈杂,发音人远离拾音器或者存在严重的口音叠加,这种情况下,识别率会有明显的下降。
总结语音识别面临的挑战,如下列所示:
噪声影响:例如车载环境下会有回声以及各种噪声源。
远场识别:麦克风和声源距离过远时收音识别效果较差。
专业领域识别:导航、办公、旅游、美食等不同场景有语言模型。
方言口音:全球有上千种语言,中国的方言种类也非常多。
口语化:不同情绪下语速、声调不同,吞字、结巴会造成音频质量参差不齐。
高质量收音:在多人、声音嘈杂的场景下,如何“听清楚”。
二、语音合成(TTS)
语音合成在早些时候并不热门,但是随着技术的成熟和依赖高质量沟通体验的人机沟通的发展又逐渐热门起来。另外,现在业内很多推销及客服电话已经实现机器人打电话的过程甚至沟通能力,在这种情况下需要高质量的语音合成技术来有效降低用户直接挂断电话的概率。
语音合成可以简单理解为,将文字转化为拟人化的声音,满足多种场景对不同声音的需求,完成人机语音交互的闭环的过程。
当前业内最热门的技术是 Google 主导开发的 WaveNet 引擎,其对应 MOS 值达到了 4.5+,而真人录音的 MOS 值在 4.4+左右,几乎可以以假乱真。
2.1 语音合成面临的挑战
同语音识别一样,语音合成也面临很多的挑战。声音也要具备多适应的特点,在不同的场景需要不同的声音以及用户提出的语音定制化的要求,这些需求对语音合成技术提出下列所示的挑战:
语音定制化:声音也是品牌的代表,追求品牌的公司不愿意共享声音
录音时长:合成要求一定量的高质量录音,会带来录音时间及其它成本
声音的适应性:有的声音适合读物朗读,有的声音适合做语音助手
多音字,特殊读法
拟真度:发音准确性,流畅度,抑扬顿挫等一系列因素决定合成效果与真人差距
主观性:对声音好坏的判断有一定个人主观性,难有客观的标准
三、典型落地场景下语音技术的优化
3.1 语音输入法
语音输入法最早是内嵌到手机中的,通常是手机厂商像 Google,苹果,三星等这些公司主导在做,后续才逐渐出现在输入法软件,如讯飞,百度,搜狗等。
用户在实用场景或者 APP 中,通用语音输入法一方面由于需要切换才能进行相关操作,缺乏灵活性,另外一方面无法根据场景或者 APP 进行定制化,如场景热词的定制。因此,现有语音输入法的发展趋势为从输入法软件向 APP 内部迁移,如王者荣耀中的语音输入文字交互的场景。
3.2 录音转写(人与人交互)
录音转写主要是用于服务质量,甚至责任的判定,如话务员日常跟客户交流的话术是否符合标准。它能够有效解决:人工抽检速度慢,覆盖率低;标准不一,无法避免个人主观性影响;成本高,需要大量人力,且需要定期培训、抽查等等难题。
不同于语音输入法场景,是人与机器沟通,人会下意识“迁就”机器而刻意放慢语速,而录音转写面对的是人与人的沟通,会面临交互口语化程度高,背景噪声不可控等问题,因此大大提升了录音转写的难度。实践证明,能有效提高录音转写准确率的方法如下:
1)选择正确的引擎参数。如:采样率:8K or 16K,单声道 or 双声道。
2)尽可能提升录音质量,降低背景噪音,减少无关声音的输入,使说话人不要远离麦克风,不要采用大压缩比的音频格式。
3)定制化提升,语料训练,热词。
3.3 客服机器人
经过大量探索和实践证明语音最大落地场景就是机器人。例如,客服场景,它面临的 80%以上的问题都是重复的,因此机器人的使用能够大大的减轻客服人员的压力。而语音机器人结合语音识别,语音合成等等技术,实现多渠道的覆盖,为用户提供更好的体验。可以说基于人工智能的客服系统逐渐变为企业的竞争力。
语音技术的发展也为新时代数字化服务提出了更高的要求,如:更好的人机交互体验,更丰富的智能化功能,更多样的人机交互渠道。简而言之,语音是人类最自然的沟通方式,语音技术与机器人能力的结合会带来全新的服务体验。
四、腾讯云智能语音落地案例分享
腾讯云在智能语音方面已经有一些成功的落地方案,包括跟金融行业,故宫,亚朵酒店等的一些合作。
对于金融级任务机器人,主要完成一些基础转账操作,用户通过语音进行人机交互,其中包含银行卡的选择,转账金额的确认,最终转账等功能,是在金融行业语音交互上的进一步探索。
在跟故宫的联合合作中,主要是对故宫展品的介绍进行语音合成。用户可以通过扫描相应的二维码来获取语音的展示,这些合成的语音质量非常高,拟人化强。
在此同时,跟亚朵酒店的合作中,利用“小微”智能音箱打造智慧酒店的行业智能解决方案。在酒店中,接入相关设备,他可以听得懂、看得见。这是一个专门适合懒人的黑科技,只需要张开嘴轻声呼唤"HI,小微",然后通过语音交互令窗帘、音箱、灯光、空调都在掌握之中。除此之外,它还可以查询天气、交通路线、新闻资讯、查询机票等。该方案已经在北京,深圳等城市落地和使用。
另外语音技术也可以应用在其他的场景中。例如在视频中,实现音频判断是否违规的鉴别能力;在记录方面,可以应用在法庭记录等场景,节省大量的人工的工作;也可以应用在翻译和同传方面。
作者介绍:
倪捷,腾讯云高级产品经理。北京邮电大学硕士。现在腾讯云大数据与人工智能产品中心 AI 应用产品组担任高级产品经理,负责智能语音相关 AI 产品,拥有互联网、金融等行业人工智能落地的丰富经验。
本文转载自公众号携程技术(ID:ctriptech)。
原文链接:
https://mp.weixin.qq.com/s/tNimughQ0mwKSgbFvwXSlw
评论