![喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德](https://static001.infoq.cn/resource/image/41/3f/41db10fdd183580c8d5d01637ec5e73f.jpg)
整理 | 华卫、核子可乐
6 月 12 日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是,该模型可以在消费级 PC、笔记本电脑等个人消费系统以及企业级 GPU 上运行时生成这些图像。
要体验 SD3 Medium,可使用 Stability Platform(https://platform.stability.ai/)上的 API,注册 Stable Assistant(https://stability.ai/stable-assistant)以获取三天免费试用,也可通过 Discord 体验 Stable Artisan(https://stability.ai/stable-artisan)。
![](https://static001.geekbang.org/infoq/ef/ef6b0a7ea0e675c06bdfe0ac4aef1e6d.jpeg)
据介绍,SD3 Medium 由 20 亿个参数组成,无需复杂的工作流程即可获得逼真的结果。 模型的大小也是 SD3 Medium 的核心亮点,该模型比许多 Stable Diffusion 3 模型都要小,后者的参数范围在 8 亿到 80 亿之间。
Stability 公司表示,其构建 SD3 Medium 来理解涉及空间关系、构图元素、动作和风格的复杂提示,它还能克服手部和面部常见的伪影和瑕疵。但意外的是, SD3 Medium 一经发布,却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。
面对 SD3 Medium 生成的离谱画面,甚至有不少用户纷纷吐槽:“这个版本是来搞笑的吗?”
SD3 Medium 有何突破性?
根据官方说法, SD3 Medium 是一套拥有 20 亿参数的 SD3 模型,其显著特点包括:
出色的整体质量与照片级真实感:提供包含出色细节、色彩及光照的图像,可在输出中实现照片级的真实表现以及风格灵活的高质量效果。通过 16 通道 VAE 等创新,成功解决了手部及面部真实感不足等其他模型中常见的缺陷。
提示词理解:能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词。通过使用全部三种文本编码器的组合,用户可以在性能与效率之间做出权衡。
排版功能:凭借 Diffusion Transformer 架构,SD3 Medium 实现了“前所未有”的文本输出质量,能够减少拼写、字距调整、信函格式及字母间距等方面的错误。
资源高效:由于所占用的 VRAM 空间小,所以非常适合在标准消费级 GPU 上运行,且不致牺牲模型性能。
微调:能够从小型数据集中吸纳微小细节,非常适合满足定制化需求。
![](https://static001.geekbang.org/infoq/74/74508d30ea21ec483acd7b7603606011.png)
使用“一只猫在车里抱着一罐啤酒”作为提示词,在 SD3 Medium 中生成的示例
同时,Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型(包括 SD3 Medium)的性能,TensorRT 优化版本更可提供 50%的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3 Medium 的推理性能。
此外,Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。其表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。
因人体绘制问题被狂嘲
然而,SD3 Medium 的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型(例如 Midjourney 及 DALL-E 3)似乎反而有所倒退,会生成一些在结构上诡异扭曲的视觉效果。
![](https://static001.geekbang.org/infoq/2c/2c8696873be6d3849bba4cc952f47825.png)
Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“一个人在客厅里打盹”
Reddit 上的原帖题为《这个版本是来搞笑的吗?(Is this release supposed to be a joke? [SD3-2B] )》,其中详细介绍了 SD3 Medium 在渲染人物,特别是在手、脚等肢体方面的离谱操作。
![](https://static001.geekbang.org/infoq/4a/4a7e6eae9dfdcd783b60ce66c57fd305.png)
Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“海滩上穿着裙子的女子”。
受到早期训练数据集中高质量示例不足的影响,绘制手部一直是 AI 图像生成工具面临的关键挑战。但近来,不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在 Reddit 上的图像合成爱好者们来说,SD3 的表现似乎确有倒退之嫌——特别是与去年 11 月发布的 SD XL Turbo 等 Stability 版本相比。
![](https://static001.geekbang.org/infoq/ec/ec3ae892e947ea3ad9c055c661c290dd.png)
![](https://static001.geekbang.org/infoq/9a/9a67ab35bd9c6449e10cb6d8ba49bcc0.png)
![](https://static001.geekbang.org/infoq/b6/b6299beaa300ef86a7065216b5e4d21c.png)
使用 SD3 Medium 创建的三张 AI 生成图像,手部明显残缺不全
一位 Reddit 用户写道,“不久之前,Stable Diffusion 还在与 Midjourney 分庭抗礼;可现如今,它看起来就像是个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”
另一篇题为《SD3 在生成躺在草地上的女孩时为何表现糟糕?(Why is SD3 so bad at generating girls lying on the grass?)》也展示了类似的问题,只是这回出问题的是整个躯体。
![](https://static001.geekbang.org/infoq/4d/4d70db43f686cba3f0e953c5846b84f1.png)
使用 SD3 创建的 AI 生成图像,提示词是“一位女子躺在草地上”
AI 图像爱好者们目前将 SD3 的人体绘制问题,归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容(所谓「不适合工作时间观看」的内容,简称 NSFW),因此图像生成质量有所下降。一位 Reddit 用户写道,“分享一条冷知识,对模型的严格审查也会过滤掉人体解剖素材,于是……就变成现在这样了。”
也就是说,每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念,图像合成模型就会自行捏造对于用户要求的最佳解释,扭曲诡异的图像也由此产生。
2022 年发布的 Stable Diffusion 2.0 在描绘人体方面也出现过类似的问题。当时,AI 研究人员很快发现,筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD 2.1 和 SD XL 成功扭转了局面,恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。
模型预训练期间可能出现的另一个问题,是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔,意外排除了那些并不存在冒犯性的内容,这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道,“只要图片不涉及人物,SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高,把所有人类图像都划入了 NSFW 范畴。”
使用 Hugging Face 上的 SD3 免费在线演示,即可快速输入提示词并看到与 Reddit 用户们上报情况类似的结果。例如,使用“一名男子伸出双手”的提示词,模型生成了一张男子举起两只硕大且左右颠倒手部的图像,好在指头倒是正确的五根。
![](https://static001.geekbang.org/infoq/52/52876ae160ffe5eb8fb9062e7f8c0c1c.png)
使用“一名男子伸出双手”作为提示词,在 SD3 Medium 中生成的示例
结语
SD3 Medium 在 Stability 的动荡时期到来。
这家初创公司成立于 2020 年,很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手 Midjourney 和 OpenAI 的 Dall-E 并驾齐驱,Stable Diffusion 登上了新生文本到图像子行业的顶峰。2022 年,投资者对这家初创公司的估值为 10 亿美元。
然而,从那时起,一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道,Stability 公司也曾讨论过出售事宜,因为它面临着资金紧张的问题。
今年 2 月,Stable Diffusion 3 模型的延迟发布也激起了不少传闻。有声音认为,Stability 是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境,其创始人兼 CEO Emad Mostaque 已经于 3 月辞职,随后又经历了一系列裁员。在此之前,三位核心工程师 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 也已决定离去。
在一部分 Stable Diffusion 粉丝看来,SD3 Medium 如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现,也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产,但不少用户在看到 SD3 Medium 的表现后尖锐地讽刺称:“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”
但无论如何,SD3 Medium 是 Stability 打造的 Stable Diffusion 3 家族中最新、最先进的文本转图像 AI 模型,代表着生成式 AI 发展的重要里程碑,将继续为这项强大技术的普及贡献力量。Stability 表示,其将根据用户反馈不断改进 SD3 Medium 模型,扩展其功能并优化性能。目标是为生成式 AI 的艺术创作领域树立新的标杆,并使 SD3 Medium 成为服务专业人士与业余爱好者的重要工具。
参考链接:
https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator
公众号推荐:
AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。
![](https://static001.geekbang.org/resource/image/e1/bf/e1bcaf2b349de20504699cbf0f2790bf.png)
评论