50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Google 神经机器翻译系统实现 Zero-Shot 翻译

  • 2017-02-09
  • 本文字数:1146 字

    阅读完需:约 4 分钟

Google 去年晚些时候宣布他们已经将机器学习应用到谷歌翻译服务中,得到的神经网络模型可以实现"Zero-Shot"翻译。

Zero-Shot 翻译是指对不存在显式训练或者映射的语言对之间短语的翻译。当使用中介语言作为路径对以前未进行直接互译训练的语言或短语进行翻译时,经过训练的神经网络得到的效果让研究人员也很惊讶。研究人员指出,新系统的动态数据可视化为不同语言间的共享语义表示或者中介语言提供了早期证据。这也是更高效的翻译程序全部由神经网络自己产生的证据。

过去 10 年间,谷歌翻译已经从几种语言发展为支持 103 种语言,每天翻译超过 140 亿单词。应用神经网络来提高翻译的准确度和效率的动机是神经网络在很多其他领域的成功。

这一发现的关键问题是,是否可以在这样一些语言对之间进行翻译:它们之前从未配对,但是具有一些辅助路径进行连接,例如英语到韩语,韩语到日语,然后从英语推测日语。

谷歌团队声称,他们可以在不改变核心翻译模型的情况下实现该模型,其中包括编码器、解码器和注意力(Attention)。GNMT(Google Neural Machine Translation System,谷歌神经翻译系统)的一些细节表明它是使用双向递归神经网络来对传递到解码器的单词进行编码以预测目标语言单词,但是它与最近发表的论文中的 Zero-Shot 翻译模型的相似点和不同点还不明确。Google 声称:

…与 Google 的基于短语的翻译系统相比,GNMT 的翻译错误平均减少了 60%…在 WMT’14 英语到法语和英语到德语的基准测试中,GNMT 得到了与目前最好成绩相近的结果。通过对一组孤立的简单句子进行人为并行评估,与 Google 的基于短语的翻译系统相比,它将翻译错误平均减少了 60%。

输入单词用目标语言标记,而不是源语言。Google 注意到:

不指定源语言具有潜在的缺点,也就是在翻译来自不同源语言具有相同拼写但不同含义的单词时,可能产生歧义,但是优点是其更加简单,并且我们可以通过代码切换来处理输入。我们发现,在几乎所有的情况下,上下文可以提供足够的语言信息来生成正确的翻译。

Zero-shot 网络:

…其中包括由 8 个编码器层和 8 个解码器层组成的深度 LSTM 网络,通过注意力(Attention)和残差(Residual)连接…对从未进行直接互译训练的语言对执行隐式连接,这说明迁移学习和 Zero-Shot 翻译对神经翻译来说是可能的。

虽然翻译质量的改善已经取得立竿见影的效果,但可拓展性依然是今后持续努力的重点,其目标是支持所有的 103 种语言。GNMT 系统的公开可用的产品版本已经支持最近添加的 16 种语言中的 10 种。

阅读英文原文: Zero-Shot Translation with Google Neural Machine Translation System


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-02-09 18:004693

评论

发布
暂无评论
发现更多内容

平凯数据库与证通股份完成方案互认证,共筑证券 IT 合规治理新基石

TiDB 社区干货传送门

合作伙伴 证券 / 基金

AI 时代智能制造的数据底座解决方案——基于平凯数据库的敏捷、智能与可信赖实践

TiDB 社区干货传送门

智能制造 / 汽车

从MySQL迁移到 TiDB 平凯数据库敏捷模式的落地测试记录|用接近单机的成本,拿到了分布式的全套能力

TiDB 社区干货传送门

平凯数据库敏捷模式

MySQL数据库 VS TiDB 精华入门版-平凯数据库敏捷模式试用体验

TiDB 社区干货传送门

平凯数据库敏捷模式

2025年YashanDB数据库市场格局与机遇展望

数据库砖家

TiDB 7.1 多租户在中泰证券中的应用

TiDB 社区干货传送门

金融 资源管理

TiDB 平凯数据库敏捷模式使用体验及总结:批量写入效率和压缩比高,安装部署简洁方便!

TiDB 社区干货传送门

安装便捷,才是好用的开始|平凯数据库敏捷模式体验分享

TiDB 社区干货传送门

平凯数据库敏捷模式

2025年YashanDB数据库技术创新趋势展望

数据库砖家

2025年YashanDB数据库全球市场预测及机遇

数据库砖家

2025年YashanDB数据库行业发展趋势与未来展望

数据库砖家

平凯数据库与东软教育达成技术互认证 共筑教育数字化转型新基石

TiDB 社区干货传送门

教育 合作伙伴 数据库原理

平凯数据库与鼎驰科技完成方案互认证,共助医院数智化管理升级

TiDB 社区干货传送门

医疗 合作伙伴

信创数据库选型|平凯数据库敏捷模式对标 MySQL数据库试用体验

TiDB 社区干货传送门

平凯数据库敏捷模式

小红书数据库资源规模飙升超 100% 背后:数十套 TiDB 集群(过万核)助力小红书实现保稳、降本、增效三重奏

TiDB 社区干货传送门

互联网 数据库架构选型

轻松驾驭分布式数据库:平凯数据库 TiDB 敏捷模式初体验

TiDB 社区干货传送门

平凯数据库敏捷模式

TiDB企业版敏捷模式体验与对比|制造业 MES、ERP 可参考

TiDB 社区干货传送门

平凯数据库敏捷模式

2025年YashanDB数据库技术发展的潜在趋势

数据库砖家

​平凯数据库敏捷模式:助力数字政务数据中台升级的“新引擎”​​

TiDB 社区干货传送门

测试 国产化替代 TEM 试用 MySQL 迁移 平凯数据库敏捷模式

平凯数据库与新开普完成互认证,技术融合重构智慧校园核心体验

TiDB 社区干货传送门

教育 合作伙伴 数据库原理

平凯数据库TEM敏捷模式在openEuler-22.03-LTS 官方原版操作系统安装部署(车联网场景)

TiDB 社区干货传送门

平凯数据库敏捷模式

平凯数据库敏捷模式实践评估:在线DDL、存储压缩和故障自愈方面的表现令人印象深刻

TiDB 社区干货传送门

平凯数据库敏捷模式

平凯数据库敏捷模式体验分享

TiDB 社区干货传送门

平凯数据库敏捷模式

TiDB 分布式数据库学习路线图,一场投资未来的旅程,零基础也能冲!

TiDB 社区干货传送门

技术趋势 数据库原理 8.x 实践 部署与初始化 MySQL 迁移

2025年YashanDB数据库功能更新及展望

数据库砖家

2025年YashanDB数据库关键技术创新方向预测

数据库砖家

2025年YashanDB数据库技术发展趋势前瞻

数据库砖家

2025年YashanDB数据库技术发展趋势与展望

数据库砖家

八年长跑,单表5TB无压力!某互联网银行用TiDB支撑600T核心数据的降本增效之路

TiDB 社区干货传送门

互联网 金融 银行 互联网金融

金融行业工作者使用 TiDB 敏捷模式的超预期体验:成本优势、开发效率、运维便捷

TiDB 社区干货传送门

平凯数据库敏捷模式

YashanDB数据库在企业应用中的创新趋势

数据库砖家

Google神经机器翻译系统实现Zero-Shot翻译_AI&大模型_Dylan Raithel_InfoQ精选文章