写点什么

做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破

  • 2019-05-10
  • 本文字数:2898 字

    阅读完需:约 10 分钟

做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破

在人工智能领域,语音翻译已经不是一个新鲜词汇,这门技术已经广泛应用于我们的日常生活和会议等场景中,且仍具有巨大的应用潜力等待挖掘。现在,语音翻译技术的发展现状如何?此前面临的难点有所突破了吗?今天,AI 前线将通过科大讯飞 AI 研究院副院长王士进,来深入了解这一领域的进步。

语音翻译技术现状

“目前业内语音翻译主流技术路线还是以语音识别+机器翻译的级联方式为主,在部分场景下已经达到了实用的门槛,”王士进在采访中透露。但用过语音翻译产品的人应该都了解,在实际应用场景中,语音翻译技术并不总是让人满意。王士进也坦诚,语音翻译技术想要进一步发展,口语的不规范性、口音、方言的识别,专业领域的翻译效果、翻译的实时性等问题还亟待解决。


在产品层面上,目前的语音翻译产品主要有交替传译和同声传译两种形态。交替传译类有各类翻译机、同声传译类产品,如讯飞的听见同传,能够实现同步文字直播和实时翻译。


同样地,市面上的语音翻译产品并不总能让用户满意。以讯飞翻译机为例,虽然据科大讯飞称这个产品的用户满意度为 99%,但在同声传译等场景下,目前只能做到帮助用户更方便地理解内容,但有时识别效果和翻译效果还会出现一些问题。当然,这也是目前所有同传产品所面临的实际问题。


另外,在语音翻译领域还有一种现象:一些公司宣称在重大比赛项目中获得很好的成绩,准确率再创新高,等等,但当在实际场景中一应用,往往会发现效果并不是很理想,甚至会出现低级错误,比如在英翻中任务中,翻译准确率会大打折扣。那么,这是否意味着仅技术层面的完善并不代表实际应用效果一定会好?


对此,王士进表示,不同语种的翻译效果确实会根据公司的业务发展需要进行侧重优化,最终的效果也是识别、翻译等技术共同决定的。


当然,技术可能只是一方面,另一个很重要的是“涟漪效应”。(注:“涟漪效应”是互联网思维在核心技术研究中的应用,用户一旦使用,数据会送到云计算服务器,云计算服务器可以立即学习更新,利用涟漪效应,可以把不熟的、需要在真实环境中训练出来的系统,真正培养出来)。这是互联网思维在核心技术研究中的应用。为什么现在的实验室,不能提出最好的算法,主要是没有大数据和涟漪效应。在移动互联网下,因为软件免费,用户愿意花时间用这些产品,且不会产生抱怨或反抗。当推出一个不好的人工智能算法(包括图像、语音、自然语言理解)时,就像水滴滴在水面,只有一小部分人才会用到。一旦使用,数据会送到云计算服务器,云计算服务器可以立即学习更新。当水波扩大到更广泛的人群时,系统的性能已经提高。水波的振幅就是系统的误差。当水波扩散,振幅越来越低。当水波纹扩散到第 1000 万人时,10000001 个人是第一次使用这一系统,他会觉得系统很好。利用涟漪效应,可以把不熟的、需要在真实环境中训练出来的系统,真正培养出来。在实验室中,可以做人工智能的算法。


由此可见,高超的技术对于一个完善的用户产品来说必不可少,但技术高超并不意味着产品体验一定好,还需要经过不断的涟漪效应持续迭代达到好用。

循序渐进和里程碑式突破

回首语音翻译技术从研究到应用的过程,从最初实验室中的设想到走进寻常百姓家,这门技术的发展实际上历经了几个重要的里程碑式突破,才达到如今的效果。


王士进认为,从语音识别上来说,从上世纪 80 年代的 GMM-HMM 框架,到 10 年前的 DNN-HMM 框架,再到这两年的 Encoder-Decoder 框架,语音识别效果实现了阶跃式的提升,使得语音翻译具备了很好的前提条件;而从机器翻译上来说,从最初的规则翻译,到后来开始产业化的统计机器翻译,再到现在的神经机器翻译,特别是神经机器翻译技术,给机器翻译带来了巨大的提升,使得在日常口语、新闻等场景下,机器翻译已经达到了实用的门槛。

难点和突破口

然而,语音翻译和机器翻译的发展并非一帆风顺,即使是现在,这一领域仍然面临着很多待啃的“硬骨头”。


首先是识别错误带来的级联影响,包括方言、口语化等会影响识别的输出展示和翻译的输入;其次是同声传译中的实时性问题,如何能平衡翻译效果和翻译实时性是目前的一大难题。


知道问题在哪是第一步,第二步就是如何克服这些问题。这需要从这个链条上寻找相对薄弱的突破口。


对此,王士进认为,做好语音识别是前提,包括方言识别、对口音的容错、对口语化识别结果的后处理规整等。其次是渐进式解码技术,解决翻译实时性的问题。

案例研究:讯飞最新翻译引擎 TNMT 分析

一个好的语音翻译产品离不开一个好的翻译引擎。现在,我们以科大讯飞最新一代语音翻译引擎 TNMT 为例,来了解语音翻译背后的技术。


据王士进介绍,TNMT 采用最强大的语音识别技术和神经机器翻译技术,主要有语音识别-> 语音后处理-> 机器翻译-> 语音合成级联方式组成,目前使用业内主流的识别与翻译级联方式完成最终的能力输出。


更重要的是,讯飞基于目前的语音翻译产品形成了产品优化到技术更新的迭代闭环,有了可以依托的数据涟漪效应平台,能够使得效果不断迭代优化,也是讯飞语音翻译效果能够不断优化的重要保障。


上述因素加上讯飞积累的大规模训练数据,讯飞在口语旅游等场景达到较好的水平,为出国旅游辅助交流提供了便利。

未来趋势

王士进认为,语音翻译技术未来的发展趋势,一方面是在复杂环境下的语音识别,语音翻译如果想进一步扩大应用场景,这点首先要解决好;另外,如何解决低资源语音翻译技术难题也是一个重点,很多语种有很大的价值和前景,但是目前的资源是比较少的;最后,是端到端的语音翻译技术,实现直接从原始语音到目标译文的翻译,相信这将会是未来语音翻译的发展方向。端到端语音翻译技术路线,是通过构造一个完整的神经网络模型,联合优化语音识别、识别后处理和机器翻译,建立源语言语音信号到目标语言文字的映射关系,进而实现从原始语音到目标译文的翻译。这提供了一种解决语音翻译的新思路,而且从目前看是初步可行的。一旦技术研究成功,理论上可以让语音翻译更准更快,未来也将为翻译机器性能的提升带来极大促进。

采访嘉宾

王士进,科大讯飞北京研究院院长、AI 研究院副院长。2003 年毕业于中国科学技术大学,获电子科学与技术工学学士学位,2008 年获得中科院自动化所模式识别与智能系统博士学位。研究兴趣包括语音信号处理、自然语言处理、智慧教育等人工智能技术,在 ICASSP、Interspeech、ACL、COLING、NAACL、Computer Speech and Language 等期刊会议发表数十篇论文,目前还担任中国人工智能产业发展联盟专家委员会委员、技术与产业工作组副组长。


另外,王士进博士将在 QCon 全球软件开发大会(广州站)分享题为「语音翻译技术进展及应用」的演讲,对 NLP 和语音技术感兴趣的同学可以重点关注下。

活动推荐

QCon 广州站日程上线,部分精彩内容提前剧透:


  • 语音翻译技术进展及应用

  • 从 Darknet 到 Tensorfow: 图像识别一站式平台的工程实践

  • 计算机视觉赋能无界零售(Empowering Retailing Experiences with Computer Vision)


更多人工智能、架构设计等相关实践领域尽在QCon广州2019,另外大会特设 NLP 相关的深度培训课程,感兴趣的同学抓紧时间向 Boss 申请报名,有任何问题请联系小助手鱼丸,电话:13269078023 (微信同)。扫描下方二维码,提前 get 干货信息!



2019-05-10 08:006654
用户头像

发布了 42 篇内容, 共 14.8 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

云服务器ECS年终特惠,老用户新购优惠低至4折

阿里云弹性计算

云服务器 年终特惠

结构化思维 - 感悟

搬砖的周狮傅

感悟 结构化思维

常用邮箱申请渠道【小程序专题2】

坚果

小程序 28天写作 12月日更 邮箱

一文带你从零认识什么是XLA

华为云开发者联盟

深度学习 tensorflow PyTorch 深度学习编译器 XLA

io_uring vs epoll ,谁在网络编程领域更胜一筹?

OpenAnolis小助手

网络编程

Android技术分享| 【自习室】自定义View代替通知动画(完)

anyRTC开发者

android 音视频 WebRTC 视频通话 自定义view

让数据大白于天下:GCC插件实现代码分析和安全审计

华为云开发者联盟

数据结构 安全审计 GCC 代码分析 安全分析

[Pulsar] Acknowledgement原理

Zike Yang

Apache Pulsar 12月日更

架构实战营第二周作业

Jude

「架构实战营」

从0开始学VUE - 踩坑记录

恒生LIGHT云社区

JavaScript Vue 前端

高性能云网关,打通云内外业务互通的任督二脉

华为云开发者联盟

网关 云平台 华为云Stack 云网关 L2BR/L3G

以 Kubernetes 的方式来安装运行极狐GitLab Runner

极狐GitLab

Kubernetes runner 极狐GitLab

中科柏诚本地生活赋能金融机构应对内卷危机

联营汇聚

Prometheus Exporter (二十八)RabbitMQ Exporter

耳东@Erdong

RabbitMQ Prometheus 28天写作 exporter 12月日更

Go 语言快速入门指南:第六篇 与数据为舞之映射

宇宙之一粟

哈希表 字典 映射 签约计划第二季 12月日更

iOS开发:dSYM文件分析

三掌柜

28天写作 28 12月日更 12月

常见序列化算法学习笔记二

风翱

序列化 12月日更

React进阶(六):组件生命周期

No Silver Bullet

React 生命周期管理 12月日更

面向WEB开发的Docker(三):安装Docker

devpoint

Docker 12月日更

Linux学习教程从入门到精通:条件判断和流程控制语句If

侠盗安全

Linux 运维 运维工程师 云计算架构师

带你了解几种二进制代码相似度比较技术

华为云开发者联盟

二进制 源代码 二进制代码 二进制代码比较 安全审计

【LeetCode】把二叉搜索树转换为累加树Java题解

Albert

算法 LeetCode 12月日更

0 基础实现简单的Kotlin ListView

阿策小和尚

28天写作 Android 小菜鸟 12月日更

尚硅谷微信支付实战教程发布!

@零度

微信支付

红颜更胜儿郎 | 尚硅谷微信支付实战教程发布

编程江湖

前端教程 微信支付开发

每一天

Nydia

Java并发编程实战系列(15)-原子遍历与非阻塞同步机制

JavaEdge

12月日更

通过淘宝数据学习爬虫,python scrapy requests与response对象

梦想橡皮擦

12月日更

实用机器学习笔记十五:卷积神经网络

打工人!

深度学习 算法 学习笔记 卷积神经网络 12月日更

一本用户体验时代的产品生存指南!

博文视点Broadview

给弟弟的信第14封|人到年纪,自己就是屋檐

大菠萝

28天写作

做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破_AI&大模型_陈利鑫_InfoQ精选文章