高品质的音视频能力是怎样的? | Qcon 全球软件开发大会·上海站邀请函 了解详情
写点什么

程序员微调 Stable Diffusion,打造神奇宝贝生成器,任何人脸秒变宝可梦

  • 2022-09-30
    北京
  • 本文字数:1515 字

    阅读完需:约 5 分钟

程序员微调Stable Diffusion,打造神奇宝贝生成器,任何人脸秒变宝可梦

近日,来自 Lambda Labs 的机器学习研究员 Justin Pinkney,分享了通过微调 Stable Diffusion 而创建的一个“文本转宝可梦”生成器。

输入一个文本,即可秒变“宝可梦”

 

这款名为 Text-to-Pokémon(文本转宝可梦)的生成器是一个AI艺术插件,可以根据大家输入的姓名或描述,轻松生成相应的精灵宝可梦形象。值得一提的是,该款文本转宝可梦生成器与 OpenAI 的 DALL-E 2 同源。

 

该模型的输出虽然称不上完美,但仍然是乐趣满满。大家可以尝试输入名人或政治家的姓名(参见上图中的鲍里斯·约翰逊和弗拉基米尔·普京),或者输入其他自己感兴趣的形象组合,精彩马上呈现。

 

该模型出自机器学习研究员 Justin Pinkney 之手,他曾构建过许多视觉 AI 工具和资源。值得注意的是,这套特殊模型改编自另一个更大、更强的 AI 艺术生成器,名为Stable Diffusion

 

与“闭门造车”的 DALL-E 和 Midjourney 等同类模型不同,Stable Diffusion 为开源软件,因此每个人都能轻松调整它的输出结果。

 

Pinkney 也正是借此机会,使用宝可梦数据库对 Stable Diffusion 做出微调,进而建立了这款小工具。

 

Pinkney 在 Twitter 上进一步解释称,一旦对模型完成了微调,大家都可轻松生成类似风格的图像。他还将快速调试模型的攻略分享出来,链接如下:

 

https://github.com/LambdaLabsML/examples/tree/main/stable-diffusion-finetuning

 


在 Twitter 上一搜,就能看到人们正用它制作各种混搭形象,包括孙悟空、刺猬索尼克和耶稣基督等形象。

 

宝可梦版孙悟空链接:https://replicate.com/lambdal/text-to-pokemon

 

在 Twitter 的一篇帖子中,Pinkney 更详细地介绍了这款工具的开发过程。

 

他解释道,“Stable Diffusion 是个很好的通用模型,但想获得特定风格的输出却比较麻烦,需要一些相当硬核的「快速工程」(我本人其实不太擅长)。但如果有了相关数据,那模型微调的难度就会大为降低。所以我利用宝可梦数据集对原版 Stable Diffusion 做了微调。”

 

在得到了微调模型之后,无论输入怎样的提示,它都会直接生成宝可梦形象,比如:“带翅膀的机器猫"。

 

这就是 Stable Diffusion 这类开源 AI 模型的一大优势:人们可以以此为基础,鼓捣出各种各样的有趣小工具。但开源也非完美无瑕,开放意味着每个人也都可以用 Stable Diffusion 生成暴力/色情图像或者虚假信息。Stable Diffusion 模型的创建者专门解释了他们为什么选择开源,感兴趣的朋友可以点击此处阅读。

文本生成的图像过于逼真,背后风险令人担忧

 近年来,一些研究人员已经在探索训练多模式(multimodal)的 AI 模型,也就是在不同类型的数据上操作系统,比如文本和图像。

 

在 2021 年,OpenAI 发布了CLIP,这是一个深度学习模型,能够将文本和图像映射到相同的嵌入空间中,让用户判断文本描述是否与给定的图像匹配。该模型在很多计算机视觉任务中被证明是有效的,OpenAI 还用它创建了DALL-E模型,它能够通过文本描述生成逼真的图像。CLIP 以及类似的模型都是在图像-文本组合的数据集上进行训练,这些数据都是从互联网上搜集而来,类似于 InfoQ 今年早些时候报道的LAION-5B数据集。

 

今年 7 月,谷歌也亮出了最新文本到图像生成模型 Parti,该款模型有能力生成“以假乱真”的超逼真图片,但其实该系统存在的一些问题也不容忽视。谷歌研究团队对模型生成的图像可能包含对人的刻板印象也感到担忧,这也是 Imagen 和 DALL-E 2 正在努力解决的问题。此外,由于可能会产生逼真的人物图像,因此存在额外的深度伪造风险。出于训练数据存在的偏见、对产生有害图像的担心,以及公众不可避免地滥用等原因,研究团队目前没有公布 Parti 模型、代码和其他数据。

 

参考链接:

https://www.theverge.com/2022/9/26/23372457/pokemon-ai-generator-stable-diffusion-model

2022-09-30 14:245723
用户头像

发布了 453 篇内容, 共 142.8 次阅读, 收获喜欢 593 次。

关注

评论

发布
暂无评论
发现更多内容

什么?美团T9首发内部JVM高级特性笔记,看完差距不止一点

小Q

Java 学习 程序员 架构 面试

双11购物节国外剁手党同狂欢 阿里云视频云电商直播实时字幕

阿里云视频云

云直播 直播 直播带货 语音识别

Rethink:多版本文件的命名细节

小匚

团队 随笔杂谈

《精通Tomcat:Java Web应用开发、框架分析与案例实战》.pdf

田维常

tomcat

低代码开发平台核心功能设计——组件自定义交互实现

徐小夕

大前端 编辑器 H5 大屏可视化 lowcode

Pulsar Summit Asia 2020 | 主题演讲:大咖呈现,紧扣社区

Apache Pulsar

大数据 开源

区块链有了几个新“标准”!

CECBC

区块链 版权保护

当人脸识别对准执法者,AI的应用边界博弈

脑极体

一个技术总监的忠告:精通那么多技术,你为何还是受不到重用?

四猿外

程序人生 技术管理 加薪 职场成长 源码阅读

2 w字长文带你深入理解线程池

Java架构师迁哥

JVM真香系列:方法区、堆、栈之间到底有什么关系

田维常

Java JVM 堆栈 方法区 Java虚拟机

甲方日常 48

句子

工作 随笔杂谈 日常

Reactor中的Thread和Scheduler

程序那些事

响应式编程 reactor 多线程 程序那些事 reactivex

如何应对大促流量洪峰?揭秘京东技术人的备战手册

京东科技开发者

云计算 大数据 亿级流量

Dubbo-go Client端调用服务过程

apache/dubbo-go

dubbo dubbo-go dubbogo

这份笔记我必啃完!美团T9首发内部JVM高级特性笔记,差距不止一点点

Java架构追梦

Java 源码 架构 面试 JVM

祝贺 StreamNative 团队成员 Jennifer 当选 Apache Pulsar PMC 成员

Apache Pulsar

大数据 开源 Apache Pulsar

HTTPDNS开源 Android SDK,赋能更多开发者参与共建

移动研发平台EMAS

android 阿里云 开源 httpdns 移动研发平台

数字投票时代即将到来

CECBC

数字投票

靠脑机接口“隔空探物”,大脑植入芯片可实现“心灵感应”

脑极体

代码简易调试方法.md

Albert

Java LeetCode 调试

微信视频号强制置顶朋友圈:盈利不可牺牲用户体验

石头IT视角

当我们在讨论实时性的时候,我们在讨论什么?

VoltDB

数据分析 5G 工业互联网

Spring bean 加载顺序导致的 bug 问题

AI乔治

Java 架构 Spring Boot

如何预防工业物联网中的恶意攻击?

VoltDB

大数据 数据分析 5G 工业互联网

文科妹子都会用 GitHub,你这个工科生还等什么

沉默王二

GitHub

数据结构与算法系列之递归(GO)

书旅

数据结构与算法 Go 语言

实时指挥调度的发展和优势

anyRTC开发者

ios android 音视频 WebRTC RTC

2020双11:每秒58.3万笔!阿里云又扛住了!

云计算 互联网 运维 云原生 科技

架构师训练营第八周

我是谁

极客大学架构师训练营

接口文档生成详细教程

测试人生路

接口文档

程序员微调Stable Diffusion,打造神奇宝贝生成器,任何人脸秒变宝可梦_文化 & 方法_李冬梅_InfoQ精选文章