写点什么

谷歌推出文本到图像模型 Muse:生成图片质量更高、推理时间更短

  • 2023-01-05
    北京
  • 本文字数:654 字

    阅读完需:约 2 分钟

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如DALL-E-2Stable DiffusionMidjourney等)的诞生,人工智能研究的进展发生了革命性的变化。

 

近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。 

 

我们提出 Muse,一种文本到图像的 Transformer 模型,可实现先进的图像生成性能,同时比扩散或自回归模型更有效。

——谷歌 Muse AI 团队

 

据开发团队介绍,与 Imagen DALL-E 2 等像素空间扩散模型相比,Muse 由于使用离散标记并且需要更少的采样迭代,因此效率显着提高;与 Parti 和其他自回归模型不同,Muse 利用了并行解码。 为了生成高质量的图像并识别物体、它们的空间关系、姿态、基数等视觉概念,使用预训练的 LLM 可以实现细粒度的语言理解。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 的 900M 参数模型在 CC3M 上实现了新的 SOTA,FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID,以及 0.32 的 CLIP 分数。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 模型能够根据文本提示快速生成高质量图像:在 TPUv4 上,512x512 分辨率为 1.3 秒,256x256 分辨率为 0.5 秒。

 

根据 MUSE 的基准测试可以看出,Muse 的推理时间明显低于竞争模型。

 


参考链接:

 

https://muse-model.github.io/

https://dataconomy.com/2023/01/google-muse-ai-explained-how-does-it-work/

2023-01-05 11:436701
用户头像
李冬梅 加V:busulishang4668

发布了 1052 篇内容, 共 666.4 次阅读, 收获喜欢 1214 次。

关注

评论

发布
暂无评论
发现更多内容

183天打造行业新标杆!BOE(京东方)国内首条第8.6代AMOLED生产线提前全面封顶

爱极客侠

本文解析Pencils Protocol价值基础,$DAPP或是本轮的Alpha资产

BlockChain先知

豆包大模型发布视频生成模型,语义理解精准、画质高保真

新消费日报

云数据库RDS MySQL性能测试与对比@2024年09月

NineData

性能测试 云数据库 对比 RDS MySQL

动态精选|华为云全域Serverless 8月更新盘点

平平无奇爱好科技

首批通过!华为云CodeArts Snap智能开发助手通过可信AI智能编码工具评估,获当前最高等级

平平无奇爱好科技

一文读懂 Pencils Protocol 近期不可错过的市场活动

加密眼界

本文解析Pencils Protocol价值基础,$DAPP或是本轮的Alpha资产

股市老人

软硬件“双管齐下”,英特尔与百度加速推动AI无处不在

E科讯

本文解析Pencils Protocol价值基础,$DAPP或是本轮的Alpha资产

西柚子

睿呈时代基于华为云Astro发布“数字孪生平台+政企智慧应用”全方案

平平无奇爱好科技

怎样免费使用API将文字转换为拼音

幂简集成

API

分布式缓存服务Redis®版9月企业版、灵活的购买方式全新上市

平平无奇爱好科技

即梦AI接入豆包·视频生成模型,打造更高质量智能化创作体验

新消费日报

节省60%资源,替换Cassandra,北京城建智控牵手IoTDB为地铁运行保驾护航

Apache IoTDB

国庆出游全攻略:一起来“遇见心动目的地”!

最新动态

本文解析Pencils Protocol价值基础,$DAPP或是本轮的Alpha资产

加密眼界

中小企业高效协作“神器”!华为云会议Flexus版828超值优惠

轶天下事

解析 Pencils Protocol 价值逻辑,$DAPP为何是本轮的Alpha资产?

石头财经

一文读懂 Pencils Protocol 近期不可错过的市场活动

西柚子

火山引擎成功举办首届AI创造者大赛,打造智能体推动汽车行业模型能力应用

新消费日报

利用反射扫描枚举生成数据字典数据

六哥是全栈

spring 反射 枚举 #java 数据字典

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短_文化 & 方法_李冬梅_InfoQ精选文章