写点什么

阿里国际发布首个大规模商用翻译大模型,效果据称超 Google、DeepL 等

  • 2024-10-17
    北京
  • 本文字数:793 字

    阅读完需:约 3 分钟

大小:394.50K时长:02:14
阿里国际发布首个大规模商用翻译大模型,效果据称超Google、DeepL等

在 AI 调用量最高的场景之一——机器翻译,阿里国际的 AI 团队有了新进展。


10 月 16 日,阿里国际副总裁、AI 负责人张凯夫在接受彭博社专访时表示,阿里国际最新研发的 Marco 翻译大模型,支持中、英、日、韩、西、法等 15 种全球主流语种。目前已在阿里国际 AI 官网 Aidge 上发布,面向全球用户开放使用。


据称,基于目前广泛使用的开源评测数据集 Flores,Marco 翻译大模型在 BLEU 自动评测指标上,超过市面上的其他翻译产品,如 Google 翻译、DeepL、GPT-4 等。



图:根据公开榜单数据的测评结果


Marco 的主要优势就是由大语言模型驱动,能够基于语境进行精准翻译,而不是根据字面意思,造成哭笑不得的歧义。“你的宝贝正在路上”,不会再被翻译成“Your baby is on the way”。以“尊嘟喜欢”这一网络用语为例,一些 AI 翻译产品会将这句话翻译为“Zundu likes it”,而在 Marco 大模型中,这句话非常地道地翻译为“I really like it”。


如何实现这一效果呢?据介绍,Marco 翻译大模型通过面向多语言的数据筛选技术,如多语种混合语料甄别、多维度数据质量评估,获得高质量、大规模的多语言数据,再结合多语言的混合专家、参数扩张方法,从而保证主导语言(如中、英)性能不下降的情况下,提升其他语种的质量。同时,通过模型量化和加速、多模型规约等优化策略,大幅降低大模型的服务成本,甚至与传统小模型相比,成本也具有优势。


目前,Marco 翻译大模型已实现大规模商用。得益于阿里国际在跨境电商领域多年的积累,Marco 在跨境电商领域的表现尤为亮眼。对于个人用户来说,Marco 能够根据上下文提供高质量的翻译和良好的可读性,甚至支持不同的翻译风格,满足多样化的翻译需求。


根据媒体公开报道,阿里国际在去年成立了 AI 团队,过去一年在 40 多个场景里测试了 AI 能力,帮助 50 万中小商家、对 1 亿款商品进行优化。商家的 AI 需求也不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍,AI 的调用量已经突破日均 1 亿次。

2024-10-17 08:4910783

评论

发布
暂无评论
发现更多内容

实战教程:利用淘宝API接口批量抓取商品列表数据

tbapi

淘宝商品列表数据接口 淘宝商品数据采集 淘宝商品列表数据采集 淘宝商品列表接口 淘宝商品API

第三届中国 PM&PMO 前沿大会即将开幕!

新消费日报

天谋科技成为中国工业大数据创新发展联盟专业委员会副主任单位

Apache IoTDB

《Programming from the Ground Up》阅读笔记:p75-p87

codists

assembly 编程人

LeetCode题解:1233. 删除子文件夹,排序,JavaScript,详细注释

Lee Chen

古画新韵——李逸弘国画作品赏析

科技热闻

淘宝商品详情数据接口| 淘宝API接口

tbapi

淘宝商品详情接口 淘宝商品API接口 淘宝API 淘宝商品详情数据

解密可观测行业中的语义规范 — 代码世界中的“语言艺术”

Greptime 格睿科技

数据库 可观测性 代码 系统可观测性 语义规范

【YashanDB知识库】离线升级一章22.2不支持直接升级到23.1

YashanDB

yashandb 崖山数据库 崖山DB

VMware vCenter Server 6.7 U3u (安全更新) - ESXi 集中管理软件

sysin

vSphere vmware vcenter esxi

全能数据分析工具:ableau Desktop 2019 for Mac 中文激活版

你的猪会飞吗

Mac软件 mac软件下载

客户案例 | 识货基于向量检索服务 Milvus 版搭建电商领域的向量数据检索平台

阿里云大数据AI技术

大数据 向量检索 Milvus

计算机视觉与图像分类:技术原理、应用与发展前景

天津汇柏科技有限公司

计算机视觉 图像分类

架构升级:火山引擎VeDI实验平台服务能力进一步优化

新消费日报

ConsenSys 高管:别傻乎乎盯着 CT 了,能明说的大概不是 Alpha

TechubNews

冒烟测试与宇宙飞船

FunTester

天猫商品详情数据接口 | 天猫商品数据采集 | 天猫API接口指南

tbapi

天猫商品详情数据接口 天猫API 天猫商品数据采集 天猫商品详情采集

LeetCode题解:2073. 买票需要的时间,模拟,JavaScript,详细注释

Lee Chen

零信任持续高速发展,新场景下展现惊人潜力

芯盾时代

身份安全 数据安全 零信任

PIRF-404

Echo!!!

English

【YashanDB知识库】汇聚库23.1环境发生coredump

YashanDB

yashandb 崖山数据库 崖山DB

安吉尔:净水科技的“自转”革命,守护每一滴纯净

科技热闻

VMware vCenter Server 8.0U3a 下载 - 集中式管理 vSphere 环境

sysin

vSphere vmware vcenter esxi

LeetCode题解:290. 单词规律,哈希表,JavaScript,详细注释

Lee Chen

数业智能心大陆:数字化心理健康的未来

心大陆多智能体

智能体 AI大模型 心理健康 数字心理

阿里国际发布首个大规模商用翻译大模型,效果据称超Google、DeepL等_AI&大模型_赵钰莹_InfoQ精选文章