写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005262

评论

发布
暂无评论
发现更多内容

星环科技TDH社区版:让大数据分析触手可及

星环科技

Apache IoTDB 在智慧养老家庭设备上的落地应用,节约99%存储成本

Apache IoTDB

String源码解析-String的使用注意

zarmnosaj

5月月更

在Rainbond中一键部署高可用 EMQX 集群

北京好雨科技有限公司

iview 如何实现文件上传并限制上传格式和大小

CRMEB

GPU服务器:全球市值最大的半导体公司

Finovy Cloud

人工智能 云计算 GPU服务器

超低延迟传输网络架构在元宇宙场景的应用

网易云信

音视频 元宇宙 传输网络

星环科技StellarDB4.0正式发布:性能数倍提升,万亿级图数据库挖掘海量数据互联价值

星环科技

星环科技数据安全与流通新产品+原创合规体系方法论,加速数据安全落地!

星环科技

netty系列之:给ThreadLocal插上梦想的翅膀,详解FastThreadLocal

程序那些事

Java Netty 程序那些事 5月月更

星环科技多模型大数据基础平台TDH9.0:十种数据模型组合拳 打通大数据业务全场景

星环科技

直播预告|企业智能化转型Meetup V1

星策开源社区

AI BI 智能化转型

企评家 | 从机器学习刻画企业成长性画像

企评家

郑州商品交易所:数智一体化助力交易所数字化转型

星环科技

TDC 3.0 从数据分析到数据流通,数据云拓展新场景

星环科技

Rainbond结合NeuVector实践容器安全管理

北京好雨科技有限公司

京东优惠价格策略助手

江苏京酷电子商务有限公司

查询优化 京东 优惠券 转链

制作网站的FAQ时,需要考虑哪些功能,要有哪些注意事项

小炮

FAQ

星环科技Sophon 3.1发布,模型运管、隐私计算、边缘计算、知识全流程实现从数据到智能的全链路构建

星环科技

星环科技打造自主可控的高性能数据库,开启国产化升级新篇章

星环科技

如何将你的 WordPress 网站置于维护模式

海拥(haiyong.site)

WordPress 5月月更

HarmonyOS 2版本更新!两个小技巧让你告别隐私泄露烦恼

科技汇

青岛研博基于EMQ物联网数据基础设施在智慧水务平台产品中的实践

EMQ映云科技

物联网 IoT 实践案例 emq 5月月更

手慢无!Alibaba五份自研Java程序员进阶宝典限时开源(开发手册+面试指南+性能优化+机器学习+架构手册)

Java全栈架构师

Java 程序员 架构 面试 程序人生

【LeetCode】移除指定数字得到的最大结果Java题解

Albert

算法 LeetCode 5月月更

体验有礼 | 1 分钟 Serverless 极速部署个人网盘,真网盘真好用!

Serverless Devs

阿里云 互联网

CRM系统可以拯救您的初创企业

低代码小观

初创公司 CRM 中小企业 CRM系统 初创型企业

TDS:标签平台+API平台+数据共享平台,助力数据运营平台建设

星环科技

Zadig v1.11.0 发布:不止于环境,与开发者一起交付全球业务

Zadig

DevOps 云原生 CI/CD 软件交付

面试以前上司,能力一般,但他卑微哀求,我该不该放水?

Java全栈架构师

架构 面试 程序人生 java程序员 java 编程

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章