QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005197

评论

发布
暂无评论
发现更多内容

HAP赋能新疆建工:消融数据墙篱与智慧集成

明道云

利用ThingsBoard与CnosDB高效存储遥测数据的实践

CnosDB

rust 时序数据库 tsdb 开源社区 CnosDB

SecureCRT for mac(专业的终端SSH工具)

Mac相关知识分享

商业版vs开源版:一图看懂云消息队列 RocketMQ 版核心优势

阿里巴巴云原生

阿里云 RocketMQ 云原生

高效开发Gradle架构设计图解/掌握项目工程自动化技巧(精通篇一)

肖哥弹架构

Java 项目管理

如何做好产品项目进度管理

爱吃小舅的鱼

产品项目进度管理

Set A Light 3D Studio for Mac(三维模拟影棚布光软件)

Mac相关知识分享

开发体育直播足球篮球APP网站,需要准备资料

软件开发-梦幻运营部

管理项目挑战:合理划分需求优先级的策略

爱吃小舅的鱼

需求管理 需求管理工具 需求优先级

Linux 命令行中的复制粘贴

玄兴梦影

命令行

2024年汇总非技术精选文章的合集

安全乐谷

大数据 架构 前端 后端

Alfred 5 for Mac(苹果高效工作工具)

Mac相关知识分享

项目管理技巧:防止初期需求收集不充分的策略

爱吃小舅的鱼

需求管理 项目管理软件 项目需求 需求收集

排名前十的工作计划软件:全面测评与推荐

爱吃小舅的鱼

项目管理工具 工作计划 工作计划管理

探索RAG应用:文档智能与百炼平台的最佳实践(完整代码示例)

方华Elton

RAG知识库

📢 重磅更新:CnosDB 2.3.5.4 版本上线, 性能提升,问题修复一网打尽  📢

CnosDB

大数据 AI rust 时序数据库 开源社区

《暗黑破坏神 IV》是什么样的游戏,苹果电脑也能运行《暗黑破坏神 IV》吗?

阿拉灯神丁

游戏 暗黑破坏神2 CrossOver Mac下载 虚拟机软件 Mac游戏分享

Microsoft Office 2019 for Mac v16.78.3正式版

Mac相关知识分享

地平线 bev 参考算法板端一致性验证教程

地平线开发者

算法 自动驾驶; 算法工具链 地平线征程5

Apache Dubbo 正式发布 HTTP/3 版本 RPC 协议,弱网效率提升 6 倍

阿里巴巴云原生

阿里云 云原生 dubbo

Redis【2】- SDS源码分析

秦怀杂货店

redis 源码 sds

客户与开发团队期望不一致?应对策略详解

爱吃小舅的鱼

项目管理 需求管理 需求分析 需求管理工具 期望不一致问题

基于开源云原生数据仓库 ByConity 多场景测试

程序员海军

#ByConity

Microsoft Remote Desktop Beta for Mac(远程连接工具)

Mac相关知识分享

AIGC 产品经理训练营-毕业总结

卡西毛豆静爸

AIGC

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章