写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005214

评论

发布
暂无评论
发现更多内容

像黑客一样思考

Fooying

黑客思维 黑客 安全攻防

一个值得推荐的人才测量标准

Selina

死磕Java并发编程(1):探究Java并发机制的底层原理

Seven七哥

Java Java并发 并发编程

国内10大前端团队网站

bigezhang

技术 大前端

Windows环境MySql8.0忘记root密码重置

玏佾

MySQL

关于Iterator和Iterable

shengjk1

Java Iterator和Iterable

机房运维需要了解东西

Spider man

Idea工程启动时报错:Command line is too long

玏佾

intellij-idea

你不必读完一本书

池建强

学习 读书

阿里面试,一面就倒在了Java内存模型上?赶紧来看看

Seven七哥

面试 Java并发 内存模型

Flink获取kafka中每条消息对应的topic

shengjk1

flink kafka flink 消费 kafka 获取 topic等信息

极客父母送给孩子的 ABC Book 就是这么 GEEK

魏彬(rockybean)

GEEK BOOK

Scrum vs Kanban,如何选择

TerryLee

Scrum Kanban 敏捷开发 Worktile 研发管理

聊聊:Java

谢烟客

Java 编程 开发者 随笔杂谈 「Java 25周年」

程序员陪娃看绘本之启示

孙苏勇

程序员 生活 读书 成长 陪伴

一文搞定 equals 和 hashCode

shengjk1

Java equals vs hashcode

Arduino 蓝牙遥控+超声避障小车

黄耗子皮

树莓派 极客

回“疫”录:开篇

小天同学

疫情 回忆录 现实纪录 纪实

我从来不在朋友圈晒投资人合影,却融了很多钱

邓瑞恒Ryan

高效工作 人脉 职业规划

公司大了,人多事杂,如何落地项目制?

树上

项目制 落地 公司管理 业务线 考核

Fire Fast 再深一层的是什么?

树上

管理 考核 Fire Hire 用人

当我们在说5G网络安全的时候,究竟在说什么?

石君

5G 5G网络安全 5G安全 网络安全

一篇文章搞定 java 中的 path 和 classpath

shengjk1

Java classpath vs path classpath path

破解 Java Agent 探针黑科技!

谭建

Java JVMTI APM Profile

三点思考,判断一家公司是否值得加入

邓瑞恒Ryan

高效工作 个人成长 职业

Java中的Stream用还是不用

孙苏勇

Java 流计算 程序设计 性能

复用到何种程度

孙苏勇

Java 程序设计 复用 面向对象 抽象

如果明天没有恐惧——两小时看完余欢水后想到的……

伯薇

个人成长 心理学 小说 恐惧

2020,这个世界会好吗?

IT民工大叔

读书笔记

媒体的经营 01 | 媒体/内容行业投资分析的维度

邓瑞恒Ryan

创业 内容 重新理解创业 媒体 投资

给业务线的总经理多交代了几句

霍太稳@极客邦科技

创业 效率 团队管理

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章