QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

谷歌卷自己,继 Imagen 之后继续放大招:靠 200 亿参数由文本生成的图像惊呆网友!

  • 2022-07-01
  • 本文字数:1749 字

    阅读完需:约 6 分钟

谷歌卷自己,继Imagen之后继续放大招:靠200亿参数由文本生成的图像惊呆网友!

谷歌亮出最新文本到图像生成模型 Parti


如今,文本到图像生成模式风靡一时,但谷歌公司最近密集的一系列新发布,却让大众有些出乎意料。而在 Google Research 之前的图像到文本生成模型 Imagen 发布之后,他们决定展示另一个模型构建来完成同样的任务。


据介绍,备受关注的这一最新模型被命名为Parti(Pathways Autoregressive Text-to-Image)。虽然Imagen和 DALL· E2 是一种扩散模型,但 Parti 遵循 DALL· E 的足迹作为自回归模型。无论其架构和培训方法如何,最终用途都是一样的:这些模型(包括 Parti)将根据用户的文本输入生成细致的图像。

 

Imagen 的图像生成具有与 Open AI 的DALL-E 2 相似的架构,但输入依据的是大型 AI 语言模型——由于具有更高的语言理解能力,因此可以从文本描述获得更好的图像生成结果。新的 AI 模型 Parti 尝试使用一种更接近大型语言模型功能的替代架构(自回归),这些语言模型能根据之前的单词和句子或段落的上下文预测合适的新词。Parti 将这一原则应用于图像,并取得了成功。

 

Parti 表明,与大型语言模型一样,图像 AI 通过更全面的训练和更多的参数获得了明显更好的结果。它还可以将长而复杂的文本输入准确地翻译成图像,这表明它可以更好地理解语言和主题之间的关系。


伴随着 Parti 的发布,还有一篇博客文章描述了使用 Google 的文本到图像模型创建图像的过程,可以在此处访问:https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/

Parti 详细参数


研究人员创建了四种不同规模的 Parti 模型,其中包括 3.5 亿、7.5 亿、30 亿和 200 亿的参数计数。这些模型是使用 Google Cloud TPU 进行训练的,这些 TPU 能够轻松支持创建这些巨大的模型。网站上提供一些不同模型规模间的比较,但在这里仅分享一些从论文中摘取的比较(从左到右从小到大):

 


 像所有其他文本到图像生成器一样,Parti 以各种类似的方式处理存在的各种问题,例如不正确的对象计数、混合特征、不正确的关系定位或大小、不正确处理否定,列表可能会继续等。以下是 Parti 进行处理的一些例子:



Parti 生成的图像分辨率为 256 x 256 像素,然后可以放大到 1024 x 1024 像素。下图显示了四种经过不同级别训练的 Parti 模型在相同命令提示下生成图像的质量差异。具有 200 亿参数的最大模型生成了与长文本输入匹配的无错误图像。最大版本的 Parti 模型甚至可以拼写单词,而 DALL-E 2 只能生成图像。




“20B 模型特别适合于需要世界知识、特定视角或符号书写和表示的抽象任务。”谷歌的研究团队写道。

 

另外,Parti 还可以生成超越培训材料及其主题的出色的图像。研究人员认为,这意味着图像 AI 能够准确地再现世界知识,以精细的细节和交互组合产生许多主角和对象,并遵循特定的图像格式和风格。

文本生成的图像过于逼真,背后风险令人担忧

 

尽管 Parti 已经有能力生成“以假乱真”的超逼真图片,但其实该系统存在的一些问题也不容忽视。

 

谷歌研究团队对模型生成的图像可能包含对人的刻板印象也感到担忧,这也是 Imagen 和 DALL-E 2 正在努力解决的问题。此外,由于可能会产生逼真的人物图像,因此存在额外的深度伪造风险。出于训练数据存在的偏见、对产生有害图像的担心,以及公众不可避免地滥用等原因,研究团队目前没有公布模型、代码和其他数据。

 

值得注意的是,Parti 这个 AI 模型的名字或许有着另外的深意:Parti 中的 P 代表 Pathways,这是谷歌的下一代 AI 架构,由谷歌人工智能主管 Jeff Dean 在 2021 年底首次引入。Pathways 的目标是一个智能的、多用途的 AI 系统,有朝一日能够泛化“跨越数百万个任务”。Parti 在其名称中包含 Pathway 的事实可能表明它正在接管这个未来架构中的图像部分。另外,Parti 和 Imagen 架构的组合也是可以想象的。

研究团队在网站上展示了 Parti 图像的许多其他交互式正面和负面示例,并详细解释了系统的结构。

 

所以,人们可能想知道这次是否可以使用这个最新推出的大型文本到图像生成器?如大家所料,答案是否定的。如 Imagen 一样,Parti 也只是让大家看看,不能使用。


参考链接:

 

https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/

 

https://wandb.ai/telidavies/ml-news/reports/Google-s-Parti-The-Newest-Text-To-Image-Generation-Model--VmlldzoyMjExNjA2?galleryTag=ml-news 

 

2022-07-01 15:2017013
用户头像
李冬梅 加V:busulishang4668

发布了 1046 篇内容, 共 659.6 次阅读, 收获喜欢 1210 次。

关注

评论

发布
暂无评论
发现更多内容

vue入门:定制自定义指令和过滤器

小鲍侃java

8月日更

netty系列之:内置的Frame detection

程序那些事

Java Netty 程序那些事

SpringApplication启动run了啥

Rubble

8月日更

fil价格走势分析?fil为什么会大涨?

区块链 分布式存储 IPFS fil价格走势 fil大涨

接口测试的时候如何一键获取cookie,并在其他接口引用

与风逐梦

软件测试 接口测试 Cookie

开发一个分布式IM(即时通信)系统!

小傅哥

Netty DDD 小傅哥 即时通信

你真的了解二叉树吗?(树形结构基础篇)

有道技术团队

技术 二叉树 网易

LeetCode题解:27. 移除元素,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

一文带你了解NB-IoT标准演进与产业发展

华为云开发者联盟

物联网 IoT NB-IoT

20张图带你了解JVM运行时数据区(上)

阿Q说代码

JVM 8月日更 pc寄存器 虚拟机栈 本地方法栈

web技术分享| 实现WebRTC多个对等连接

anyRTC开发者

音视频 WebRTC JavaScrip web技术分享

神策数据微信小程序 SDK 架构解析

神策技术社区

大前端 后端 数据 代码 数据采集

基于Serverless架构的社区文章管理小工具

刘宇

抖音快手短视频询盘系统开发

抖音快手短视频平台获客系统开发内容

手撸二叉树之第二小的节点

HelloWorld杰少

数据结构与算法 8月日更

【Flutter 专题】63 图解 Flutter 集成极光 JPush 小结

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

【LeetCode】反转字符串中的元音字母Java题解

Albert

算法 LeetCode 8月日更

用手机写代码:基于Serverless的在线编程能力探索

刘宇

抖音快手短视频SEO系统开发

接口文档生成工具 一键生成文档 ApiPost

CodeNongXiaoW

项目管理 大前端 测试 后端 接口管理工具

Swift 实现聚光灯动效

fuyoufang

swift 8月日更

测试开发之系统篇-Docker常用操作

禅道项目管理

Docker 容器 测试开发

抖音快手短视频SEO营销系统软件开发价格

缓存 | Redis 缓存避坑指南

RadonDB

数据库 redis

JNI 提示

Changing Lin

8月日更

fil为什么会暴涨?fil暴涨还会持续吗?

区块链 分布式存储 IPFS fil币价行情 fil币会大涨吗?

前端基础四之JavaScriptDOM与事件

ベ布小禅

8月日更

从源码角度解析线程池中顶层接口和抽象类

华为云开发者联盟

Java 线程 软件开发 高并发 线程池

李欲晓:加强关键信息基础设施安全保护的法治基石

郑州埃文科技

Android SDK 启动退出方案演进

神策技术社区

大前端 后端 代码 数据采集

谷歌卷自己,继Imagen之后继续放大招:靠200亿参数由文本生成的图像惊呆网友!_AI&大模型_Teli Davies_InfoQ精选文章