写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

2022-11-04 16:124811

评论

发布
暂无评论
发现更多内容

"智能财务运营:商汤小浣熊助力腾讯云账单分析"

雪雷

腾讯云 FinOps 办公小浣熊 商汤科技

mac鼠标自动点击工具:RapidClick for Mac 激活版

iMac小白

Autodesk AutoCAD 2025 for mac(cad设计绘图软件)

iMac小白

mac任务管理和跟踪工 Chrono Plusv1.7.1激活版

iMac小白

Mac字体编辑器 FontLab 直装激活版

iMac小白

Navicat for SQL Server for mac(数据库管理工具)

iMac小白

华为云深圳团队斩获TopDigital金奖,打造产业营销新篇章

最新动态

HDC 2024开发者分论坛:携手高校和培训机构共育鸿蒙人才,见证鸿蒙先锋力量

最新动态

camtasia studio字幕位置能移动吗 camtasia studio字幕有黑框怎么删除黑框

阿拉灯神丁

Camtasia 录屏软件 投屏软件 Camtasia Studio2024 视频剪辑软件

Brawer uBar for Mac专为Mac用户设计的Windows风格任务栏工具

iMac小白

移动硬盘格式化后能恢复数据吗 硬盘坏了怎么把数据弄出来 格式化的磁盘数据怎么恢复 数据丢失了怎么找回

阿拉灯神丁

格式化 数据恢复软件 硬盘数据恢复 备份 & 恢复 EasyRecovery16

区块链与证券交易

dappweb

区块链 ao

Guitar Pro 8中文破解版百度云免费下载 2024最新安装激活教程 Guitar Pro 8激活码生成器 Guitar Pro 8激活密钥

阿拉灯神丁

吉他谱 软件包 激活码生成器 Guitar Pro8 KeyShot 注册机

OmniFocus Pro 4 for Mac,你的GTD时间效率神器

iMac小白

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS 集成驱动版,新增 12 款 I219 网卡驱动

sysin

macos intel esxi 驱动 网卡

区块链与跨境支付

dappweb

区块链 ao

🚀 emoji控必备:编写一个emoji选择器组件

JYeontu

Vue 前端 emoji 组件 组件库

编程的乐趣在哪里

AlexLei

人月神话

🌈 emoji控必备:制作一个emoji面板插件

JYeontu

Vue 前端 emoji chrome扩展 Chrome插件

mac电池最大充电限制工具:AlDente Pro for Mac 激活版

iMac小白

AlDente Pro mac lDente Pro下载 lDente Pro激活版 lDente Pro破解版

我的办公小助手——办公小浣熊

芯动大师

人工智能 数据分析 办公小浣熊 商汤科技

区块链与数字货币

dappweb

区块链 ao

Axure RP 9 for Mac v9.0.0.3744中文激活版(原型设计软件)

iMac小白

当海思遇见鸿蒙,一曲万物智联的高山流水

脑极体

鸿蒙

Valentina Studio Pro for Mac(专业的数据库管理软件)

iMac小白

《编译原理》阅读笔记:p25-p32

codists

编译原理

区块链的应用地域

dappweb

区块链 ao

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章