写点什么

微软的汉英机器翻译达到人类水平

  • 2018-03-21
  • 本文字数:896 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

微软设计了一个翻译算法,把中文句子翻译成英文,其译文达到了人工翻译的水平

长久以来,把中文句子翻译成英文一直是个难题。有些语言和英语的相似度很高,翻译起来比较容易。由于中文的句子结构不同,所以,对于许多传统的翻译算法来说,中文翻译都是一项挑战。借助在过去几年里屡创佳绩的神经机器翻译技术,微软让机器翻译出的句子可以媲美人类翻译出的句子。

微软研究人员在神经机器翻译中使用了两种现有的方法:对偶学习推敲网络。借助对偶学习,系统从中文翻译生成的英文译文会被重新翻译成中文,从而保证结果的意思相同。在人工翻译过程中,为了验证翻译结果的正确性,人类也是这样做的,而机器似乎也得益于这一项技术。推敲网络是一种对生成的句子进行修改的方法。这项技术也是受人类的工作方式所启发:在翻译句子的时候,我们不是立即写下完整的翻译,而是修改再修改,找出最好的一个。

为了改进翻译算法,微软还开发了两项新技术。他们的联合训练技术会把英文句子翻译成中文,然后再译回英文,扩展训练集。两个翻译系统都使用这项技术进行了改进。他们还创建了“一致性原则(agreement regularization)”:他们让两个算法从右向左读取中文句子,然后再从左向右。如果两个算法都给出了相同的翻译,那么这就被视为翻译正确的有力证明。

需要注意,他们达到“媲美人类的里程碑”这一结论是通过双语顾问对比机器翻译和“黄金翻译”得出的。语言翻译评价会对比机器生成的结果和人工翻译给出的单个句子。这种方法的缺点是,没有完美的算法可以比较翻译结果的内在意义,从而确保他们的意思一致。这是所有翻译研究人员都面临的问题,包括谷歌在内,他们选用的算法在算法评价上效果较差,但在人类对比评估方面效果更好。

过去几年来,借助强大的神经网络,机器翻译社区在翻译算法方面取得了大量的成果。谷歌 Facebook 和微软都争相开发最好的算法。微软在这里对比了传统翻译算法和神经翻译算法,但还没有把他们可以媲美人类的系统放在里面。

查看英文原文 Microsoft Achieved Human Parity on Chinese-English Machine Translation

2018-03-21 19:002634
用户头像

发布了 1008 篇内容, 共 403.1 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

Oracle sql 性能优化(二)

默默的成长

oracle 前端 11月月更

诚意满满的前端面试总结

loveX001

JavaScript

100+款AI产品薅羊毛攻略(下)——轻轻松松节省几十万

夏夜许游

人工智能 AI 阿里云视觉智能开放平台

京东云开发者|深入JDK中的Optional

京东科技开发者

jdk java8 NPE 空指针 Optional

从URL输入到页面展现到底发生什么?

loveX001

JavaScript

鸿蒙开发入门 | 开发第一个鸿蒙应用+页面跳转

TiAmo

华为 鸿蒙 11月月更

京东云开发者|软件架构可视化及C4模型:架构设计不仅仅是UML

京东科技开发者

软件架构 架构设计 架构可视化 图形化编排 C4模型

React面试:谈谈虚拟DOM,Diff算法与Key机制

beifeng1996

React

javascript拖拽功能

格斗家不爱在外太空沉思

JavaScript 前端 11月月更

JavaScript箭头函数与普通函数的区别

格斗家不爱在外太空沉思

JavaScript 前端 11月月更

python小知识-并发编程(2)

AIWeker

Python 人工智能 并发编程 python小知识 11月月更

react相关面试知识点总结

beifeng1996

React

Web前端安全系列之:XSS攻防

GFE

前端 前端安全

Docker PHP 入门实践(四)

Felix

Docker thinkphp 11月月更 高德天气Api

计算机网络:信道划分介质访问控制

timerring

计算机网络 11月月更 信道划分

react的jsx和React.createElement是什么关系?面试常问

beifeng1996

React

Oracle sql 性能优化(一)

默默的成长

oracle 前端 11月月更

Oracle sql 性能优化(三)

默默的成长

oracle 前端 11月月更

前端工程师面试题自检

loveX001

JavaScript

主动学习(Active Learning)简介综述汇总以及主流技术方案

汀丶人工智能

nlp 11月月更 主动学习

信创引领!亚信科技AntDB数据库助云南高速核心业务降本增效、系统自主可控

亚信AntDB数据库

AntDB 国产数据库 aisware antdb AntDB数据库 高速清分系统

“吃”完这本Java性能调优实战,MySQL+JVM+Tomcat等问题一键全消

程序知音

Java MySQL JVM java面试 性能调优

Redis深入浅出 知识总结

何你一起

数据库 redis 缓存 11月月更

云上创新!观测云携手阿里云日志服务 SLS,全面升级云上应用可观测性体验

观测云

云栖大会,未来万物皆是计算机?

阿里云CloudImagine

阿里云 云栖大会

三次握手与四次挥的问题,怎么回答?

loveX001

JavaScript

怎样提高报表呈现的性能

步尔斯特

使用Socket.io库制作一个简单的实时聊天室

格斗家不爱在外太空沉思

JavaScript websocket 11月月更

各地政府先后试点“首席数据官”,数据化转型或成为城市治理的重要抓手

数造万象

数字化转型 数据治理 DataOps 大数据中台

优秀开源云原生工具推荐——系列4

HummerCloud

云原生 边缘计算 优秀开源项目 开源云工具 11月月更

Databend 集群部署 | 新手篇(2)

Databend

开源

微软的汉英机器翻译达到人类水平_AI&大模型_Roland Meertens_InfoQ精选文章