超越DALL-E 2？谷歌文本转图像AI模型Imagen首次开放测试

近日，谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen，以收集用户对 Imagen 的反馈。

今年 6 月份，谷歌正式推出文本转图像 AI 模型 Imagen，并表示 Imagen 生成的图像已经全线超越了 DALL-E 2，原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

据悉，DrawBench 的测试指标并不是特别复杂：本质上，它就是一份包含约 200 条文本提示的列表，谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里，再由人工评分员判断各程序的输出质量。

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后，连续的三个扩散模型（diffusion model）会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分，该团队开发了名为 U-Net 的改进型扩散模型，以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准，Imagen 的 zero-shot FID 得到了 7.27 分，超过了之前表现最好的 DALL-E 2 模型。

不过彼时，谷歌尚未向公众开放 Imagen，并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调，这些系统在训练过程中也不可避免接触到了社会偏见，所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”，希望借此测试模型的后续迭代。

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中，用户终于可以亲自使用 Imagen。

据了解，AI Test Kitchen 是谷歌在今年早些时候推出的一款应用，其目的是对谷歌的各种 AI 系统进行测试。此前，用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动，现在，用户也可以在该应用中与 Imagen 进行互动。

值得一提的是，谷歌对用户与 Imagen 之间的互动实施了严格的限制，用户不能随心所欲地创造文本图像，只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称，AI Test Kitchen 的全部意义在于：获得公众对这些 AI 系统的反馈；测试哪些行为会使得系统崩溃。

具体而言，用户有两种方式与 Imagen 互动：城市梦想家和 Wobble。

在“城市梦想家”中，用户可以生成围绕一个主题设计的城市图像，Imagen 能够根据用户的想法，创建样本建筑和地块。

在“Wobble”中，用户可以创造一个小怪物，并选择它的材质和服装。

创作场景

超越 DALL-E 2？谷歌文本转图像 AI 模型 Imagen 首次开放测试