写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

2022-11-04 16:124717

评论

发布
暂无评论
发现更多内容

编程新手如何提高编程能力?

代码生成器研究

程序员指南|学会与大模型相处,提升个人开发效率

SoFlu软件机器人

程序员 软件开发 人工智能「 ChatGPT

国际版Amazon Lightsail的功能解析

穿过生命散发芬芳

AWS Lightsail 轻量级服务器

2023 IoTDB Summit 应用实例议题详解 | 报名到场即送卫衣!

Apache IoTDB

2023中关村论坛系列活动——英特尔智能医疗健康创新合作论坛在京成功举办

E科讯

以太坊铭文聚合交易平台 Scorpio,铭文爆发的新推手?

股市老人

乌卡时代确定性稀缺,企业多云战略最需看中什么?

轶天下事

Kubernetes中的重要概念。

百度搜索:蓝易云

云计算 Kubernetes 运维 云服务器 linux\

PDF转Word,1行Python代码就够了,免费用

程序员晚枫

Python PDF word 自动化办公

2023-11-22:用go语言,给你一个长度为 n 下标从 0 开始的整数数组 nums。 它包含 1 到 n 的所有数字,请你返回上升四元组的数目。 如果一个四元组 (i, j, k, l) 满足

福大大架构师每日一题

福大大架构师每日一题

华为数字治理经验,首次披露!

轶天下事

还在为考试重题、错题而头疼?大可不必!时习知新功能了解一下!

轶天下事

编程到底难在哪里?

代码生成器研究

透过一台电视,看到万家星闪

脑极体

通信

前言 | AI工程化部署

AIWeker

AI AI工程化部署

企业如何选择一款高效的ETL工具

RestCloud

ETL

开源之夏 2023 | Databend 社区项目总结与分享

Databend

低代码究竟能干什么?

代码生成器研究

当前各类厂商纷纷入局低代码赛道,关于低代码未来的发展前景如何?

代码生成器研究

SQL 中的 MIN 和 MAX 以及常见函数详解及示例演示

小万哥

MySQL 数据库 sql 程序员 后端开发

2023 CCHIO | 共襄盛会,为肿瘤防治创新发展贡献觅健力量

联营汇聚

Docker常见指令以及常见容器安装。

百度搜索:蓝易云

Docker 云计算 Linux 运维 云服务器

智能监控,高效观测 IT 系统瓶颈

观测云

IT 智能监控

专访|OpenTiny 开源社区 常浩:完成比完美更重要

OpenTiny社区

开源 Vue 前端 富文本编辑器

AppLink结合金蝶云星空作订单信息同步流程

RestCloud

零代码 APPlink

2024年企业软件定制开发必须了解的4大趋势

SoFlu软件机器人

数字化转型 企业 定制软件开发 技术服务

让公有云服务“宁安如梦”的“定心丸”在哪里?

轶天下事

阿里云崩了:企业未来该怎么选择云厂商?

轶天下事

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章