写点什么

Google 发布 MultiModel:能够学习不同领域多任务的神经网络

  • 2017-07-19
  • 本文字数:829 字

    阅读完需:约 3 分钟

Google 开发了一种可以接受多种形式输入并能生成多种形式输出的算法。

目前,大部分机器学习应用程序都只能关注一个领域。机器翻译一次只能建立一个语言对的模型,而图像识别算法一次只执行一个任务(例如描述图像、判断图像所属类别或在图像中查找对象)。然而,我们的大脑在执行所有任务时都能表现得很好,并且能够将知识从一个领域转移到另一个领域。大脑甚至可以将通过听学到的知识转换成其他领域的知识:看到或者读到的知识。

Google 开发了一个能够执行8 个不同领域任务的模型:语音识别、图像分类和添加标题、句法解析、英德互译和英法互译。这个模型由编码器、解码器和“输入输出混频器”组成,其中“输入输出混频器”会将先前的输入和输出馈送到解码器。如下图所示,每个“花瓣”表示一种形式(声音、文本或图像)。神经网络可以通过任意一种输入和输出的形式来学习每个任务。

2016 年 11 月,Google 发布了 zero-shot 翻译。该算法将所有句子映射到“中间语言”,“中间语言”指的是一种对于每种输入语言和输出语言都相同的句子。Google 只针对英韩语言对和英日语言对进行了训练,也就是说这个神经网络并未学习过对应的日韩语言对,但这时这个神经网络就能够进行日韩互译了。

Google 报告称,使用 MultiModel 时使用少量训练数据的任务表现更好。机器学习模型通常在使用更多训练数据的时候表现更好。使用 MultiModel 可以从多个领域获取额外的数据。需要注意的是,使用这种方法并没有打破标准任务任何已有的记录。

MultiModel 作为 Tensor2Tensor 库的一部分在 GitHub 开源。有关这个模型更详细的方法和研究结果可以在 arxiv.com 的论文 One Model To Learn Them All 中找到。

查看英文原文: Google Presents MultiModel: A Neural Network Capable of Learning Multiple Tasks in Multiple Domains


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-07-19 19:001628
用户头像
蔡芳芳 InfoQ主编

发布了 798 篇内容, 共 544.5 次阅读, 收获喜欢 2786 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL从库维护经验分享

Simon

MySQL 主从复制

前嗅教你大数据——什么是代理IP?

前嗅大数据

爬虫 数据采集 静态IP 代理IP 动态IP

高性能利器!华为云MRS ClickHouse重磅推出!

华为云开发者联盟

数据库 Clickhouse MRS

SpringBoot:整合Swagger3.0与RESTful接口整合返回值(2020最新最易懂)

比伯

Java 编程 架构 面试 计算机

太赞了!腾讯T3-3架构师整理了5000页的Java学习手册免费开放下载

Java架构之路

Java 程序员 架构 面试 编程语言

Jira停售Server版政策客观解读——如何最小化风险?

爱吃小舅的鱼

项目管理 研发管理 Jira Atlassian

小学妹问我:如何利用可视化工具排查问题?

田维常

可视化

一次 Java 进程 OOM 的排查分析(glibc 篇)

996小迁

Java 编程 架构 面试 计算机

Dubbo 接口,导出 Markdown ,这些功能 DocView 现在都有了!

程序员小航

markdown idea插件 IntelliJ IDEA 文档生成 Doc View

【活动回顾】WebRTC服务端工程实践和优化探索

ZEGO即构

WebRTC 服务端工程

IoT企业物联网平台,从设备端到云端业务系统全链路开发实战

不吃米饭

阿里云 最佳实践 物联网 IoT

#不吐不快# 三观很正的Boss,你遇到过么?

架构精进之路

职场成长 奇葩的经历 不吐不快

云原生2.0时代下,DevOps实践如何才能更加高效敏捷?

华为云开发者联盟

云计算 数字化 华为云

分布式事务太繁琐?官方推荐Atomikos,5分钟帮你搞定

互联网应用架构

分布式事务 springboot

一瞬间让我秒变“快男”!腾讯内部强推Java性能优化手册,快了不止一点点。

Java架构追梦

Java 架构 jdk 面试 性能优化

圆通快递回应内鬼泄露用户信息:严打数据倒卖灰色产业

石头IT视角

科普干货|漫谈鸿蒙LiteOS-M与HUAWEI LiteOS内核的几大不同

华为云开发者联盟

华为 鸿蒙 IoT

《垃圾回收的算法与实现》.pdf

田维常

垃圾回收

什么是云服务?

anyRTC开发者

音视频 WebRTC 云服务 RTC

CSS 排版与正常流 —— 重学CSS

三钻

CSS 排版

DàYé的CTO姗姗学步路

曲水流觞TechRill

管理 CTO

区块链在债券市场如何应用

CECBC

区块链 债券

SQL数据库:窗口函数

正向成长

窗口函数

什么是低代码(Low-Code)?

移动研发平台EMAS

工具 研发效能 低代码 开发 代码

synchronized 到底该不该用

古时的风筝

Java synchronized

【涂鸦物联网足迹】涂鸦云平台消息服务—顺带Pulsar简单介绍

IoT云工坊

人工智能 物联网 云服务 Apache Pulsar 云平台

Nginx-技术专题-技术介绍

洛神灬殇

Glide.with(view)挂在了谁的生命周期上

mengxn

生命周期 Glide Activity Fragment

#不吐不快# CV千千条,修改最重要。代码不规范,伙伴两行泪!

程序员小航

奇葩的经历 不吐不快

年轻人不讲武德不仅白piao接口测试知识还白piao接口测试工具会员

测试人生路

接口测试

区块链,音乐,流媒体和版税

CECBC

区块链 艺术

Google发布MultiModel:能够学习不同领域多任务的神经网络_Google_Roland Meertens_InfoQ精选文章