写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005181

评论

发布
暂无评论
发现更多内容

华为首次发布HarmonyOS职业认证,助力开发者实现职业进阶

科技汇

Pravega Flink connector 的过去、现在和未来

Apache Flink

flink

IPFS矿机多少钱1T?IPFS矿机多少钱一台?

分布式存储 IPFS fil fil矿机 ipfs矿机

乐活星球系统APP开发简介

DMDOGEplus钻石狗软件系统开发需求

2021挚物· AIoT 产业领袖峰会亮点:EMQ 映云科技赋能传统工业

EMQ映云科技

物联网 AIOT 云边一体 边云协同

捕货拼团软件系统开发详情

WorkPlus综合企业数字化解决方案—华侨城

WorkPlus

企业 移动开 开源软件

膜拜!阿里内部都在强力进阶学习springboot实战派文档

Java spring 程序员 架构 面试

如何实现70%丢包下音视频的高可用-信令篇

ZEGO即构

音视频 弱网 QUIC协议

国内首发!阿里高工手码分布式系统速成笔记!

Java 编程 程序员

《计算机网络 PDF》搞起!

苹果看辽宁体育

大前端 后端 计算机网络

云原生数据库的幕后英雄—浅谈分布式数据库的计算和存储分离

速拼商城APP系统开发介绍

高能预警!以阿里社招前端面试为例,详讲面对面试官到面试中到面试结束

前端依依

程序员 面试 大前端 阿里 经验分享

OD万基国际系统软件开发搭建

Gemini Mining双子矿业系统APP开发模板

U评海洋软件系统开发搭建

名列GitHub必看榜!腾讯架构师纯手敲Spring Boot高级进阶笔记

Java架构追梦

Java 架构 腾讯 面试 springboot

Polar Network/PN币挖矿APP系统开发搭建

PHA挖矿|PHA云算力挖矿系统开发案例

Geek_23f0c3

区块链 云算力挖矿系统开发详解 PHA矿机挖矿

WorkPlus高端制造业数字化解决方案—中集集团

WorkPlus

企业 即时通讯 协同办公 开源软件

全球对话式AI平台评估报告出炉 Gartner:百度位居领先阵营

百度大脑

人工智能 智能客服

架构训练营 - 模块二 - 作业

姑射仙人

架构训练营

袋鼠云:基于Flink构建实时计算平台的总体架构和关键技术点

Apache Flink

flink

批量下载gitlab代码

阿呆

#GitLab

优评海洋APP系统开发模板

喜讯:恒拓高科荣获“2020年度华侨城集团优秀数字化服务商”称号

WorkPlus

开源 解决方案 即时通讯 开源软件

ONE红地球/ONE Network系统APP开发费用

BTAU比特金盾系统软件开发内容

差点跳起来了!阿里首推22w字Java面试复盘宝典成功助我入职美团

白亦杨

Java 编程 程序员

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章