HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Google 神经机器翻译系统实现 Zero-Shot 翻译

  • 2017-02-09
  • 本文字数:1146 字

    阅读完需:约 4 分钟

Google 去年晚些时候宣布他们已经将机器学习应用到谷歌翻译服务中,得到的神经网络模型可以实现"Zero-Shot"翻译。

Zero-Shot 翻译是指对不存在显式训练或者映射的语言对之间短语的翻译。当使用中介语言作为路径对以前未进行直接互译训练的语言或短语进行翻译时,经过训练的神经网络得到的效果让研究人员也很惊讶。研究人员指出,新系统的动态数据可视化为不同语言间的共享语义表示或者中介语言提供了早期证据。这也是更高效的翻译程序全部由神经网络自己产生的证据。

过去 10 年间,谷歌翻译已经从几种语言发展为支持 103 种语言,每天翻译超过 140 亿单词。应用神经网络来提高翻译的准确度和效率的动机是神经网络在很多其他领域的成功。

这一发现的关键问题是,是否可以在这样一些语言对之间进行翻译:它们之前从未配对,但是具有一些辅助路径进行连接,例如英语到韩语,韩语到日语,然后从英语推测日语。

谷歌团队声称,他们可以在不改变核心翻译模型的情况下实现该模型,其中包括编码器、解码器和注意力(Attention)。GNMT(Google Neural Machine Translation System,谷歌神经翻译系统)的一些细节表明它是使用双向递归神经网络来对传递到解码器的单词进行编码以预测目标语言单词,但是它与最近发表的论文中的 Zero-Shot 翻译模型的相似点和不同点还不明确。Google 声称:

…与 Google 的基于短语的翻译系统相比,GNMT 的翻译错误平均减少了 60%…在 WMT’14 英语到法语和英语到德语的基准测试中,GNMT 得到了与目前最好成绩相近的结果。通过对一组孤立的简单句子进行人为并行评估,与 Google 的基于短语的翻译系统相比,它将翻译错误平均减少了 60%。

输入单词用目标语言标记,而不是源语言。Google 注意到:

不指定源语言具有潜在的缺点,也就是在翻译来自不同源语言具有相同拼写但不同含义的单词时,可能产生歧义,但是优点是其更加简单,并且我们可以通过代码切换来处理输入。我们发现,在几乎所有的情况下,上下文可以提供足够的语言信息来生成正确的翻译。

Zero-shot 网络:

…其中包括由 8 个编码器层和 8 个解码器层组成的深度 LSTM 网络,通过注意力(Attention)和残差(Residual)连接…对从未进行直接互译训练的语言对执行隐式连接,这说明迁移学习和 Zero-Shot 翻译对神经翻译来说是可能的。

虽然翻译质量的改善已经取得立竿见影的效果,但可拓展性依然是今后持续努力的重点,其目标是支持所有的 103 种语言。GNMT 系统的公开可用的产品版本已经支持最近添加的 16 种语言中的 10 种。

阅读英文原文: Zero-Shot Translation with Google Neural Machine Translation System


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-02-09 18:004159

评论

发布
暂无评论
发现更多内容

加速体细胞突变检测分析流程-系列2(ctDNA等高深度样本)

INSVAST

变异 基因测序 基因数据分析

一文读懂 Nuxt.js 服务端组件

树上有只程序猿

React nuxt

华为云828企业节:助力精细化运营,提升开发效率

mecchi

小程序 云主机 云服务器 网站建设 云电脑

面部表情识别技术的神经科学基础

来自四九城儿

08.25 北京站|阿里云 Serverless 技术实践营( AI 专场)开放报名

阿里巴巴云原生

阿里云 Serverless 云原生

微服务引擎 MSE 全新升级,15 分钟快速体验微服务全栈能力

阿里巴巴云原生

阿里云 微服务 云原生

数据分析实战│时间序列预测

TiAmo

数据挖掘 算法 数据分析

Sentieon数据质控QC模块介绍

INSVAST

数据分析 QC 质控工具

小灯塔系列-中小企业数字化转型系列研究——协同OA测评报告

向量智库

Sentieon安装时 jemalloc error 解决办法

INSVAST

代码 教程分享 基因

提升UMI分析精度和计算效率:Sentieon UMI分子标记处理模块

INSVAST

umi 基因数据分析 技术服务

Sentieon软件应用之公共卫生机构

INSVAST

公共卫生 基因数据分析

Sentieon实战:NGS肿瘤变异检测流程

INSVAST

基因测序 基因数据分析 NGS

Sentieon | 每周文献-Epidemiology(流行病学)-第五期

INSVAST

基因测序 基因数据分析 流行病学

Sentieon发布RNAseq加速分析方案

INSVAST

数据分析 基因测序 RNAseq

大家都在用哪些测试用例管理平台?分析不同类型团队下的4类测试管理工具

爱吃小舅的鱼

产品经理 测试管理

如何构建适合自己的DevOps软件测试改进方案

DevOps和数字孪生

DevOps

如何构建 Sidecarless 模式的高性能服务网格

阿里巴巴云原生

阿里云 云原生 asm

虚拟币商城数字货币交易分红模式系统开发[流程框架]

V\TG【ch3nguang】

数字货币交易平台开发 虚拟货币

PrecisionFDA:多组学样本错标校正挑战赛

INSVAST

数据分析 PrecisionFDA

学习Python文件备份和恢复技术,让您的数据永不丢失!

高端章鱼哥

Python Linux

最佳卸载程序和清洁助手 App Cleaner & Uninstaller中文最新

胖墩儿不胖y

Mac软件 卸载工具 清理软件

Lightroom Classic 2023 mac中文激活版 照片处理软件lrc2023功能

mac

苹果mac Windows软件 Lightroom Classic 2023 lrc2023

茶桁的AI秘籍 - 人工智能数学基础篇 导言

茶桁

人工智能 数学 math

虚拟币锁仓数字货币usdt投资理财系统开发合约代码

V\TG【ch3nguang】

虚拟货币 区块链技术开发

What's new in Pika v3.5.0

apache/dubbo-go

数据库 redis kv Redis 7 KV存储

Sentieon | 每周文献-Gene Editing(基因编辑)-第六期

INSVAST

数据分析 基因测序 基因编辑

Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析

INSVAST

教程分享 Hifi DNAscope

iStat Menus for Mac(系统活动监控器) v6.71 (1221)中文

mac大玩家j

活动监控器 活动监测软件 系统监测工具

富士胶片公司完成阿里云 PolarDB 数据库开源产品兼容适配

阿里云数据库开源

polarDB PolarDB for PostgreSQL 阿里云PolarDB

面部表情识别技术在社交互动中的应用

来自四九城儿

Google神经机器翻译系统实现Zero-Shot翻译_AI&大模型_Dylan Raithel_InfoQ精选文章