写点什么

机器学习翻译和谷歌翻译算法

  • 2017-08-20
  • 本文字数:2483 字

    阅读完需:约 8 分钟

机器翻译引擎的基本原理

谷歌机器翻译

Zero-shot:零次

Training:训练

Google Neural Machine Translation:谷歌神经机器翻译

我们每天都在使用不同的技术,但却不知道它们的工作原理。事实上,了解机器学习引擎并不容易。 Statsbot 团队希望通过本博客中的数据故事使机器学习更加清晰易懂。今天,我们来探讨一下机器翻译并解释谷歌翻译算法如何工作。

几年前,翻译未知语言文本是非常耗时的。使用简单的词汇逐词逐字翻译之所以困难,是由于以下两个原因:1)读者必须知道语法规则,2)在翻译整个句子时,需要记住所有语言版本。

现在,我们不需要太多的努力就可以将短语、句子、甚至是大段文本放在谷歌翻译中来翻译。但大多数人并不在意机器学习翻译的引擎如何工作。这篇文章专为那些在意的人而写。

深度学习翻译的问题

如果谷歌翻译引擎将短句的译文保留,则它将会由于可能出现的各种变数而无法工作。最好的方法是教会计算机语法规则,并让它根据这些规则来翻译句子。这听起来很简单。

如果你曾经学过外语,你就知道规则总是有很多例外的。当尝试捕获程序中的所有这些规则、例外和例外中的例外时,翻译的质量就会下降。

现代机器翻译系统采用了不同的方法:它们通过分析大量的 __ 文档 __ 来分配文本中的规则。

创建一个属于你自己的简单的机器翻译器可以作为任何数据科学家应聘简历中的一个重大项目

让我们来研究一下被称之为“黑盒”的机器翻译器中隐藏的东西。深层神经网络可以在非常复杂的任务(语音或视觉对象识别)中取得优异的效果,但尽管十分灵活,它们只能用于输入维数和目标维数固定的任务。

循环 **** 神经网络

而这正是长短期记忆网络(LSTM)派上用场的地方,LSTM 能帮助我们处理不能被先验知道的序列。

LSTM 是一种特殊的循环神经网络(RNN),它能够学习长期性的依赖关系。所有 RNN 看起来都像一连串的重复模块。

一个展开的循环神经网络

因此,LSTM 将数据从一个模块传输到另一个模块,另外,为了生成Ht,我们不仅使用Xt,还使用所有之前的输入值X。要了解有关LSTM 的结构和数学模型的更多信息,请阅读这篇非常棒的文章“了解LSTM 网络”。

双向RNN

我们的下一步是双向RNN(BRNN)。BRNN 将常规RNN 的神经元分成两个方向。一个方向是正向的时间或向前的状态。另一个方向是负向的时间或向后的状态。但这两个状态的输出并不与相反方向状态的输入进行连接。

双向循环神经网络

为什么BRNN 比相对简单的RNN 更好?请想象有一个9 个字的句子,而我们要预测第五个字。我们可以知道前4 个字,或前4 个字和最后4 个字。当然,第二种情况预测的质量会更好。

序列到序列

现在我们可以认识序列到序列模型(也称为seq2seq)了。一个基本的seq2seq 模型由两个RNN 组成即:处理输入的编码器网络和产生输出的解码器网络。

序列到序列模型

最后,我们便可以制作出自己的第一个机器翻译器了!

但是,让我们先思考这一点。谷歌翻译目前支持103 种语言,所以我们应该为每种语言提供103x102 个不同的模型。当然,这些模型质量的好坏会因为语言的普及程度和训练这个网络所需的文件数量而有所不同。我们可以达到的最佳情况是使一个NN(神经网络)能将任何语言作为输入并将其翻译成任何其他语言。

谷歌翻译

该想法谷歌工程师在2016 年底就实现了。NN 的架构基于谷歌已研究的seq2seq 模型之上。

但唯一的不同是编码器和解码器之间有8 层LSTM-RNN,且层与层之间仍有残留的连接,并有一些精度和速度上的调整。如果你想更深入地了解它们,请参考谷歌的神经机器翻译系统

该方法的主要特点在于,现在谷歌翻译算法对于每对语言只使用一个系统,而不是一个庞大的集合。

该系统在输入句子的开头需要一个“令牌”以指定你要将短语翻译成的语言。

这一改变提高了翻译质量,甚至可以在系统从未见过的两种语言之间进行翻译,这种方法被称为“零次(Zero-Shot)翻译”。

什么是更好的翻译?

当谈到谷歌翻译算法的改进和更好的结果时,如何才能正确地评估第一个翻译备选比第二个更好?

这不是一个无关紧要的问题,因为对于一些常用的句子,虽然我们有专业翻译器的参考翻译,但这些翻译仍然有一些差异。

很多方法能部分解决这一问题,但最流行和最有效的指标是 BLEU (双语评估替补)。想象一下,有两个来自机器翻译器的备选:

备选 1:Statsbot makes it easy for companies to closely monitor data from various analytical platforms via natural language. (Statsbot 通过自然语言使企业能轻松地密切监控来自各种分析平台的数据。)

备选 2:Statsbot uses natural language to accurately analyze businesses’ metrics from different analytical platforms.(Statsbot 使用自然语言准确地分析企业来自不同分析平台的指标。)

虽然它们有相同的含义,但质量和结构都不同。

我们再看看来自两个人的翻译:

参考 1:Statsbot helps companies closely monitor their data from different analytical platforms via natural language. (Statsbot 通过自然语言帮助公司密切监测来自不同分析平台的数据。)

参考 2:Statsbot allows companies to carefully monitor data from various analytics platforms by using natural language. (Statsbot 通过使用自然语言使企业能够密切监控来自各种分析平台的数据。)

显然,备选 1 更好,与备选 2 相比,备选 1 包括更多共同的单词和短语。这就是 BLEU 方法的一个关键思想。我们可以将备选的 n-gram (N 元语法)与参考翻译的 n-gram 进行比较,并计算它们的匹配数(匹配数与它们的位置无关)。我们只使用 n-gram 精度,因为在多个参考时计算查全率很难,而且结果是 n-gram 分数的几何平均值。

现在你可以开始评估复杂的机器学习翻译引擎了。下次当你使用谷歌翻译翻译某些内容时,可以想像一下:在给你最好的翻译版本之前,其实谷歌翻译已经分析了数百万份文档。

查看英文原文 https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-20 19:004432

评论

发布
暂无评论
发现更多内容

阿里数据中台底座的12年建设实践

阿里云大数据AI技术

怎么才能写出100个用户体验的关键时刻?

石云升

读书笔记 用户体验 关键时刻 7月日更

区块链不是一个风口,而是一个时代

CECBC

Android Flutter 多实例实践

网易云信

flutter 架构

【得物技术】得物开放平台进阶之路

得物技术

安全 后端 平台 订单

百度AI寻人获评《新周刊》2021年度公益项目

百度大脑

人工智能 寻人

6月热点:BML全新升级WebIDE编程环境,度目智能视频分析盒G1上新

百度大脑

人工智能 BML

Ipfs国家认可吗?国家对ipfs区块链是什么政策?

区块链 分布式存储 IPFS fil

Jar 组件自动化风险监测和升级实践

Qunar技术沙龙

安全 风险管理

技术解码 | 腾讯云SRT弱网优化

腾讯云音视频

【等保知识】等保测评机构申请条件,所需资料以及流程

行云管家

等保 堡垒机 行云管家 等保测评

可以同时管理公有云和私有云资源的软件哪个好?

行云管家

公有云 私有云 云管平台 云资源

药物研发使用北鲲云高性能计算平台,有效解决研发效率问题

北鲲云

从 Web 图标演进历史看最佳实践

百度Geek说

大前端

还在使用NoSQL数据库?为IoT选择TSDB

数据库 大数据 时序数据库 tsdb 数据智能

数字人民币如何普惠百姓?建行发布新金融数字便民计划

CECBC

Chaos Mesh 助力 Apache APISIX 提升稳定性

API7.ai 技术团队

lua 网关 APISIX Chaos Mesh

存储大师班 | NFS 的诞生与成长

QingStor分布式存储

分布式存储 分布式文件存储 NAS NFS

启动、内存、卡顿三大分析,用户体验就用它?

App

kafka日志存储以及清理机制

泽睿

kafak

丰富 TF Serving 生态,爱奇艺开源灵活高性能的推理系统 XGBoost Serving

爱奇艺技术产品团队

开源 优化 tensorflow serving 推理

揭秘Hologres如何支持超高QPS在线服务(点查)场景

阿里云大数据AI技术

实战-使用 SSM 工具创建可动态扩容的存储池

学神来啦

Linux 运维 ssm Linux教程

模块三作业

燕燕 yen yen

架构训练营

解决智慧城市发展困扰:Web3D智慧环卫GIS系统

一只数据鲸鱼

GIS 数据可视化 智慧城市 智慧环卫

细节分析Linux中五种IO模型和三种实现方式

Linux服务器开发

网络编程 epoll Linux服务器开发 Linux后台开发 IO模型

从零开始学习3D可视化之数据对接(3)

ThingJS数字孪生引擎

大前端 数据 物联网 可视化 数字孪生

《人这一辈子,都在为认知闭环买单》读后感---刘润

Changing Lin

又一数据库高危漏洞爆出,数据安全如何有效保障?

华为云开发者联盟

redis 漏洞 GaussDB(for Redis) 开源Redis 数据库安全

上架一夜遭全网封杀!阿里大牛熬夜半年手码的Java面试指南太强了

白亦杨

Java 编程 程序员 架构师

多鲸资本发布《2021教育实时音视频行业报告》:拍乐云以质取胜做行业引领者

拍乐云Pano

机器学习翻译和谷歌翻译算法_语言 & 开发_Daniil Korbut_InfoQ精选文章