程序员微调Stable Diffusion，打造神奇宝贝生成器，任何人脸秒变宝可梦

近日，来自 Lambda Labs 的机器学习研究员 Justin Pinkney，分享了通过微调 Stable Diffusion 而创建的一个“文本转宝可梦”生成器。

输入一个文本，即可秒变“宝可梦”

这款名为 Text-to-Pokémon（文本转宝可梦）的生成器是一个AI艺术插件，可以根据大家输入的姓名或描述，轻松生成相应的精灵宝可梦形象。值得一提的是，该款文本转宝可梦生成器与 OpenAI 的 DALL-E 2 同源。

该模型的输出虽然称不上完美，但仍然是乐趣满满。大家可以尝试输入名人或政治家的姓名（参见上图中的鲍里斯·约翰逊和弗拉基米尔·普京），或者输入其他自己感兴趣的形象组合，精彩马上呈现。

该模型出自机器学习研究员 Justin Pinkney 之手，他曾构建过许多视觉 AI 工具和资源。值得注意的是，这套特殊模型改编自另一个更大、更强的 AI 艺术生成器，名为Stable Diffusion。

与“闭门造车”的 DALL-E 和 Midjourney 等同类模型不同，Stable Diffusion 为开源软件，因此每个人都能轻松调整它的输出结果。

Pinkney 也正是借此机会，使用宝可梦数据库对 Stable Diffusion 做出微调，进而建立了这款小工具。

Pinkney 在 Twitter 上进一步解释称，一旦对模型完成了微调，大家都可轻松生成类似风格的图像。他还将快速调试模型的攻略分享出来，链接如下：

https://github.com/LambdaLabsML/examples/tree/main/stable-diffusion-finetuning

在 Twitter 上一搜，就能看到人们正用它制作各种混搭形象，包括孙悟空、刺猬索尼克和耶稣基督等形象。

宝可梦版孙悟空链接：https://replicate.com/lambdal/text-to-pokemon

在 Twitter 的一篇帖子中，Pinkney 更详细地介绍了这款工具的开发过程。

他解释道，“Stable Diffusion 是个很好的通用模型，但想获得特定风格的输出却比较麻烦，需要一些相当硬核的「快速工程」（我本人其实不太擅长）。但如果有了相关数据，那模型微调的难度就会大为降低。所以我利用宝可梦数据集对原版 Stable Diffusion 做了微调。”

在得到了微调模型之后，无论输入怎样的提示，它都会直接生成宝可梦形象，比如：“带翅膀的机器猫"。

这就是 Stable Diffusion 这类开源 AI 模型的一大优势：人们可以以此为基础，鼓捣出各种各样的有趣小工具。但开源也非完美无瑕，开放意味着每个人也都可以用 Stable Diffusion 生成暴力/色情图像或者虚假信息。Stable Diffusion 模型的创建者专门解释了他们为什么选择开源，感兴趣的朋友可以点击此处阅读。

文本生成的图像过于逼真，背后风险令人担忧

近年来，一些研究人员已经在探索训练多模式（multimodal）的 AI 模型，也就是在不同类型的数据上操作系统，比如文本和图像。

在 2021 年，OpenAI 发布了CLIP，这是一个深度学习模型，能够将文本和图像映射到相同的嵌入空间中，让用户判断文本描述是否与给定的图像匹配。该模型在很多计算机视觉任务中被证明是有效的，OpenAI 还用它创建了DALL-E模型，它能够通过文本描述生成逼真的图像。CLIP 以及类似的模型都是在图像-文本组合的数据集上进行训练，这些数据都是从互联网上搜集而来，类似于 InfoQ 今年早些时候报道的LAION-5B数据集。

今年 7 月，谷歌也亮出了最新文本到图像生成模型 Parti，该款模型有能力生成“以假乱真”的超逼真图片，但其实该系统存在的一些问题也不容忽视。谷歌研究团队对模型生成的图像可能包含对人的刻板印象也感到担忧，这也是 Imagen 和 DALL-E 2 正在努力解决的问题。此外，由于可能会产生逼真的人物图像，因此存在额外的深度伪造风险。出于训练数据存在的偏见、对产生有害图像的担心，以及公众不可避免地滥用等原因，研究团队目前没有公布 Parti 模型、代码和其他数据。

参考链接：

https://www.theverge.com/2022/9/26/23372457/pokemon-ai-generator-stable-diffusion-model

创作场景

程序员微调 Stable Diffusion，打造神奇宝贝生成器，任何人脸秒变宝可梦

输入一个文本，即可秒变“宝可梦”

文本生成的图像过于逼真，背后风险令人担忧