写点什么

谷歌亮出 AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E 要被碾压了?

  • 2022-06-09
  • 本文字数:1950 字

    阅读完需:约 6 分钟

谷歌亮出AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E要被碾压了?

如今的AI领域出现了一波新趋势——文本到图像生成器。只要把文本描述输入这些程序,它们主涌生成与描述内容高度匹配的精准图片。这些程序还支持各种风格,从油画、CGI 渲染再到实景照片无所不包。总之,只有你想不到,没有它画不出。

 

此前,该领域的领导者一直是DALL-E——由商业 AI 实验室 OpenAI 开发的程序(今年 4 月刚刚完成更新)。但就在昨天,谷歌也拿出了自己的王牌:Imagen,并在输出质量上一举压倒了 DALL-E。

 

以下图片均由 Imagen 生成:



一张戴着宇航员头盔的浣熊在晚上看着窗外的照片



乘坐火箭飞船前往月球的大脑



一只狗好奇地照镜子,看到一只猫



一对机器人夫妇在埃菲尔铁塔的背景下享用美食

 


撒哈拉沙漠中戴着草帽和霓虹墨镜的小仙人掌

 

要了解这些模型有什么本事,当然是先从它们生成的作品开始。(感兴趣的朋友可以访问Imagen登陆页面查看更多示例)。

 

可以看到,图像下方的文本就是输入给程序的提示,图像则是输出结果。就这么简单,告诉程序自己想看什么,Imagen 就能自行创作。这可太棒了!

 


虽然这些照片的连续性和准确性都给人留下了深刻印象,但我们旁观者也至少要保持住清醒的头脑。毕竟像Google Brain这类研究团队公布新的 AI 模型时,往往会挑选出质量最高的结果。所以虽然图片看起来非常完美,但恐怕无法代表这套图像系统的平均输出水平。

请记住:谷歌只会让你看到最好的图片

 

以往,文本到图像模型生成的图片看起来都不大完整,而且画面是相当模糊。OpenAI的 DALL-E 生成的图片就有这些问题。

 

谷歌表示不服,宣称 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。如下图所示,谷歌发现人类往往更喜欢 Imagen 的输出,对其他竞争模型的作品评价相对较低。

 


 谷歌 DrawBench 基准将 Imagen 的输出,与 OpenAI 的 DALL-E 2 等文本到图像竞争对手进行比较。

 

但这都是谷歌说的,而且他们还没有全面开放 Imagen 模型,所以我们也不知道是真是假。不开放也有不开放的理由,毕竟文本到图像模型虽然具有巨大的创造潜力,但在恶意使用之下也有可能引发严重后果。想象一下,如果这样一套系统能够生成我们想要的任何图像,那假新闻、恶作剧或者骚扰性素材还不满天飞?谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容

 

老话说得好:垃圾进、垃圾出,AI 也不例外

这主要源自此类系统的编程方式。从本质上讲,它们依靠大量数据进行训练(对 Imagen 来说,使用的就是图像加文本组合),从数据中发现模式并尝试重现。但要想得出可靠的结论,模型就得接触巨量数据。即使是谷歌这样资金雄厚的科技巨头,也很难在研究团队之内把所有输入信息都全部过滤一遍。因此,他们只能从网络上直接抓取内容,所以网上那些有毒言论和信息也就不免要渗透到 AI 模型当中。

 

谷歌研究人员在他们的论文中也做出总结:“文本到图像模型往往需要大规模数据作为支持……因此研究人员高度依赖于大型、通常未经梳理、直接从网络上抓取到的数据集……数据集审计结果显示,这类数据内容往往会反映社会上的刻板印象、压迫性观点、对边缘化身份群体的贬损等有害关联内容。”

 

换句话说,计算机科学家们的那句老话说得好:垃圾进、垃圾出,AI 也不例外。

 

谷歌并没有具体解释 Imagen 到底生成了哪些令人不安的内容,但强调这套模型“编码了几种社会偏见和刻板印象,例如总体更倾向于生成肤色较浅的人像,也更倾向于生成符合西方世界刻板印象的职业与性别组合。”

 

同样的问题在 DALL-E 身上也有出现。例如,在让 DALL-E 生成“空乘人员”图像时,给出的几乎全是女性形象。而如果要求生成“CEO”图片,得到的就基本都是“老白男”。

 

面对这个问题,OpenAI 也决定不公开发布 DALL-E,只面向一部分特定人员开放 beta 测试。他们还过滤了某些文本输入,希望阻止模型生成种族主义、暴力或色情图像。这些举措确实在一定程度上限制了技术的潜在有害应用,但 AI 技术的发展史告诉我们,这种文本到图像模型早晚会被公之于众,到那时候一切令人不安的影响都将如洪水般倾泄而出。

 

谷歌自己的结论是,Imagen“目前尚不适合公众使用”,并表示计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。但就目前来看,谷歌展示的图片确实质量颇高——头戴王冠的浣熊和墨镜下的柯基犬都相当带感。不过这还只是冰山一角,如果要想展现全部真容,Imagen 先得搞定技术研究可能引发的意外后果。

 

原文链接:

https://www.theverge.com/2022/5/24/23139297/google-imagen-text-to-image-ai-system-examples-paper?ref=refind

2022-06-09 21:0014282
用户头像
李冬梅 加V:busulishang4668

发布了 1002 篇内容, 共 616.6 次阅读, 收获喜欢 1178 次。

关注

评论 2 条评论

发布
用户头像
垃圾进、垃圾出,AI 也不例外
2022-06-14 05:31
回复
用户头像
不错哦
2022-06-11 09:18
回复
没有更多了
发现更多内容

List去除重复数据的五种方式

xcbeyond

Java ArrayList 28天写作

疫情又反扑,除了不乱跑,我们还能干点啥?

数据君

第三周

ALone

滴滴 Flink-1.10 升级之路

Apache Flink

flink

如何避免让微服务测试成为研发团队最大的瓶颈?

阿里巴巴中间件

运动健身市场越来越大,你的客户却越来越少?

IoT云工坊

人工智能 App 物联网 健身房 智能健身房

k8s-client-go源码剖析(三)

远鹏

Kubernetes Kubernetes源码 Go 语言

Elasticsearch 从 0 到千万级数据查询实践

📿

Java spring elasticsearch Spring Cloud spring data

2020已过,2021来临,iOS 开发市场如何?一切都是未知!【未来可期】

ios 程序员

这只猫在云端定居了?边缘计算在天猫精灵云应用上的落地实践

阿里云Edge Plus

CDN IoT 边缘计算 云桌面

Linux-Lab 入门:体验

贾献华

Docker Linux 嵌入式 内核 Lab

勿让 Docker Volume 引发 Terminating Pod

黄久远

Docker 云计算 Kubernetes 容器 云原生

DIY一款能随周围环境变化的智能灯泡,求婚必备!

IoT云工坊

人工智能 物联网 人脸识别 sdk IoT App

最基础的3道java面试题,你真的答得上来吗

田维常

面试

面试杀手锏!2021最新Android常用开源库总结,Android校招面试指南

欢喜学安卓

android 程序员 面试 移动开发

字节面试太刁钻了:不加机器,怎么提升系统并发100倍

Java架构师迁哥

单例模式原来是这么简单?!

后台技术汇

28天写作 2月春节不断更

点赞系统软件开发

luluhulian

new的过程是怎样的?看完这一篇就懂了

codevald

Java JVM原理 面向对象编程 类对象

GraphX 在图数据库 Nebula Graph 的图计算实践

NebulaGraph

图数据库 图数据库实战

云话题 | 第3期 你女朋友在买买买时,程序员小哥在干嘛?

阿里云Edge Plus

CDN 直播 直播带货

疫情成本遭不住?一招降本85%,架构特性全部公开!

数据君

话题讨论 | 你现在还会推荐亲朋做程序员吗?

石云升

话题讨论 2月春节不断更

MySQL字段类型最全解析

Simon

MySQL 数据库数据类型

软件架构模式之事件驱动架构

架构精进之路

软件架构 七日更 28天写作 2月春节不断更

面试看这个就够了!6年菜鸟开发面试字节跳动安卓研发岗,学习路线+知识点梳理

欢喜学安卓

android 程序员 面试 移动开发

【内含福利】流行在CDN圈内的黑话有哪些?

阿里云Edge Plus

CDN

2020-21《全球质量报告》解读

BY林子

质量保障 质量赋能 敏捷测试

领域的边界,一个小讨论

李小腾

领域驱动设计 DDD

LeetCode题解:69. x 的平方根,二分查找,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

CodeDay#5 全程回顾——一场关于动态化开发实践的技术探讨

蚂蚁集团移动开发平台 mPaaS

mPaaS Codeday 技术沙龙

谷歌亮出AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E要被碾压了?_文化 & 方法_James Vincent_InfoQ精选文章