QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

WMT 2022 国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

  • 2022-11-15
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

InfoQ 获悉,近日,WMT 2022 国际机器翻译大赛的榜单停止提交结果并发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译领域共获得三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医学领域翻译比赛中的中英翻译冠军。

 

WMT(Workshop on Machine Translation)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛之一。自 2006 年创办至今,WMT 已经成功举办 17 届。

 

在往届的 WMT 2020 和 WMT 2021,微信翻译团队先后挑战了新闻赛道的中英翻译、英中翻译、日英翻译、英日翻译和英德翻译任务,并相继夺冠。今年,微信翻译团队探索双人(多人)对话场景和垂直领域场景的翻译技术,参加了新赛道,即对话翻译和生物医学领域翻译,并获得了三项冠军。其中,在对话翻译赛道(联合校企合作团队--北京交通大学)中获得了英德翻译和德英翻译冠军,在生物医学领域翻译赛道中获得中英翻译冠军。



据介绍,WMT 2022 的对话翻译赛道融合了自然语言对话和机器翻译两大任务,旨在让不同母语的两人或多人进行无障碍地对话沟通,最终模型需要考虑两个人的对话内容、风格,保障信息交流更加顺畅和准确。华为、腾讯、知名 AI 翻译平台 Unbabel、印度电子商务公司(IITP-Flipkart)、海外研究机构 Naver Labs、爱丁堡大学在内的等众多顶尖团队角逐于该赛道。

 

生物医学领域翻译赛道旨在评估翻译系统在生物医学领域文件的翻译效果。这种垂直跨领域翻译相较于微信翻译此前涉及的歌词翻译、字幕翻译等日常场景更为复杂,训练数据少、术语翻译多等难点更需要专业领域的数据进行训练。该赛道也吸引了包括华为、腾讯、NVIDIA、巴塞罗那超级计算中心、剑桥大学等来自全球的企业、科研机构和高校所组成的顶尖团队参与此赛道的研究。

 

在本次 WMT 2022 的对话翻译和生物医学领域翻译任务的竞赛中,微信翻译团队采用了性能与多样性俱佳的 Mix-AAN Transformers 架构,并在训练数据增强、训练优化、模型集成方面也探索并验证了多项技术,实现了优异的翻译效果,并最终获得冠军。


 

具体而言,在数据增强方面,微信翻译团队通过前向翻译、迭代回译、知识蒸馏来生产高质量的伪数据,并在源端加入不同粒度的人工噪声以及采用动态 Top-p 采样来提高伪数据的多样性。同时,在训练优化中加入目标端抗噪训练、Speaker-aware 模型训练、基于 Prompt 的对话历史建模、基于梯度调度的多任务训练等多种训练方式提升翻译效率和精度。模型集成方面,微信翻译团队基于 WMT 2020 和 WMT 2021 的竞赛经验,利用 Self-BLEU 去衡量模型间的多样性,有效地改进了集成搜索算法的效率,并针对任务特定的评估指标进行了适配。


2022-11-15 12:173417
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 545.3 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

从Gartner 最新“客户之选”报告,看国内外RPA的差异化竞争

王吉伟频道

RPA SaaS 机器人流程自动化 Gartner

一个不兼容的 JS 方法,让你的网站发生崩溃

老魚

JavaScript 网站 程序猿 移动端

2021年国产数据库名录和产品信息一览

墨天轮

数据库 大数据 程序员 运维 SQL优化

Git神作!2021年Java春招高级面试指南,吃透至少P7

比伯

Java 编程 架构 面试 计算机

【Http】- Http之状态码

双木之林

网络 HTTP

数据库周刊56丨17家数据库厂商2020大事件盘点;第十届PG中国技术大会圆满举办;pg wal目录膨胀异常分析;Oracle RAC等待事件总结;云和恩墨技术通讯2020年刊特辑……

墨天轮

MySQL 数据库 oracle postgre

17家国产数据库厂商的2020年度事件大盘点:项目签约与验收、新版本发布等

墨天轮

数据库 国产化

DBA 的效率加速器——CloudQuery v1.3.2 上线!

BinTools图尔兹

数据库 运维 开发日志 dba 数据库管理工具

借朋友钱后,对方不还怎么办?

石云升

28天写作 借钱

云课堂开发实践:白板教程

拍乐云Pano

音视频 在线教育 RTC 互动白板 在线白板

Materialize MySQL引擎:MySQL到Click House的高速公路

华为云开发者联盟

MySQL 数据 Clickhouse 存储 materialize

安卓开发视频教程!2021年Android常见面试题,附面试题答案

欢喜学安卓

android 程序员 面试 移动开发

Elasticsearch document id 生成方式

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

Soul网关源码阅读(九)插件配置加载初探

Java 源码阅读 网关

创造高效能源管理方案,3D 可视化技术成为进展新思路

一只数据鲸鱼

物联网 数据可视化 3D可视化 绿色能源 智慧能源

android高级开发面试!面试中Handler这些必备知识点你都知道吗?面试真题解析

欢喜学安卓

android 程序员 面试 移动开发

场外OTC交易系统开发|场外OTC交易软件APP开发

系统开发

六步带你完成博流wifi模组对接华为云流程

华为云开发者联盟

网络 华为云 sdk 博流 wifi模组

突破开源Redis的内存限制,存算分离的GaussDB到底有多能“装”?

华为云开发者联盟

redis 存储 华为云 GaussDB 存算分离

JUST技术:提升基于GPS轨迹的路网推测精确度

京东科技开发者

人工智能

【转载】Springboot2.x的AOP默认代理方式

程序员架构进阶

Java aop SpringBoot 2 动态代理

Java 程序经验小结:接口优先于反射机制

后台技术汇

28天写作

Spring 源码学习 16:单例 Bean 创建

程序员小航

Java spring 源码

华为云登顶HotpotQA多跳知识推理问答评测

华为云开发者联盟

深度学习 华为 华为云

Apay矿机系统开发

v16629866266

Docker 容器健康检查

K8sCat

Docker Dockerfile HEALTHCHECK

全网最全!彻底弄透Java处理GMT/UTC日期时间

YourBatman

GMT UTC JSR310 TimeZone ZoneId

【CSS】带边框的三角形(position)

德育处主任

css3 大前端 html/css CSS小技巧 28天写作

19年末我从外包辞职了,10000+小时后,走进字节跳动拿了offer

Java架构追梦

Java 架构 字节跳动 面试

一周信创舆情观察(1.11~1.17)

统小信uos

双仓合约量化交易系统开发搭建

薇電13242772558

区块链 数字货币

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军_AI&大模型_刘燕_InfoQ精选文章