设计师主导的研发模式下，美图自研视觉大模型100天进化_生成式 AI_蔡芳芳

QCon北京「鸿蒙专场」火热来袭！即刻报名，与创新同行~ 了解详情 



 写点什么



大小：1.76M时长：10:13

*封面图片来源自笔者使用美图秀秀-AI 绘画和 AI 扩图功能生成

10 月 9 日，美图公司举办 15 周年生日会，并发布自研 AI 视觉大模型 MiracleVision（奇想智能）3.0 版本。面世 100 天后，美图 AI 视觉大模型 MiracleVision3.0 将全面应用于美图旗下影像与设计产品，并落地电商、广告、游戏、动漫、影视五大行业，助力五大行业“工作流提效”。

会后，围绕美图视觉大模型的独特性、研发模式、核心竞争力等问题，美图公司管理层与 InfoQ 等媒体展开了进一步交流。

MiracleVision 3.0 核心能力

据美图公司创始人、董事长兼首席执行官吴欣鸿介绍，三个月前刚发布时，MiracleVision 的绘画水平还停留在初级阶段，如今 MiracleVision 3.0 版本已经能描绘出真实细腻的画面细节。

美图公司将 MiracleVision 的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

在“奇思妙想”层面，MiracleVision 通过“提示词智能联想”功能来降低大众的使用门槛，当用户输入关键词，MiracleVision 可自动补充相关表述，如光影效果、质感、风格、图片质量等，推动创作平权。此外，通过“提示词精准控制”功能，MiracleVision 能满足更加专业的设计要求，如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

在“智能创作”层面，MiracleVision 通过“深化创作”功能，可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能，对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图，让细节表现、色彩展示、物体辨识更加的精准和生动。

对 MiracleVision 感兴趣用户可以访问 AI 视觉创作工具“WHEE”官网体验。目前美图大部分产品也都逐渐融入了 MiracleVision 大模型，其中美图秀秀作为一个影像入口，整合了美图大部分产品，用户也可以在美图秀秀上一站式地感受美图视觉大模型能力。

从 1.0 到 3.0，美图自研视觉大模型演进历程

自 6 月 19 日发布以来，美图 AI 视觉大模型 Miracle Vision 已经完成 1.0、2.0、3.0 三个版本的进化。

美图公司设计副总裁、设计中心负责人许俊用三个关键词总结了 Miracle Vision 各个版本的状态。1.0 版本是勤奋好学，刚到及格线，初步建立美学体系，但各个维度还需要不断训练；2.0 版本是奇思妙想，通过持续训练，模型的创作力得到提升，生成结果更加有想象力；3.0 版本是智能创作，在之前的基础上可以做到更加精准智能的控制，也更加精细，细节质感显著提升。

在不同阶段，美图大模型团队需要解决的技术难点和挑战也各不相同。

据美图公司技术副总裁、美图影像研究院（MT Lab）负责人刘洛麒介绍，在 1.0 阶段，团队主要工作是搭建大模型的架构和基础，使后续 2.0 和 3.0 的研发可以达到比较好的准备条件，这个阶段的难点主要在于怎么搭建好这个基础架构和平台。

在 2.0 阶段，团队需要与外部设计师，包括艺术院校的老师和学生一起去构建一个比较高质量的数据集，使大模型在美学上可以达到比较好的状态。

在 3.0 阶段，需要攻克的技术难点主要是模型的可控性和在垂直领域的效果精致度，其中可控性方面，不管是细节控制还是局部编辑，要能使用户想要达到的效果在模型的技术层面能达到很好的实现，这是一个很大的挑战。而垂直领域的效果精致度，需要团队花很多精力投入在每个不同的垂直领域效果调试上，针对每个领域的训练方式、生成方式和调试方式都是不一样的。

美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅补充表示，如果做通用的视觉大模型，把全网的各种图片拿过来做一些训练，其实很好做，但这样做出来的模型，最终生成的东西其实用不到实际工作过程中，因为每个垂直领域细分下去还会有特别多不同的品类，通用模型无法满足实际需求。

做视觉大模型，美图强在哪？

围绕 AI 视觉大模型上，美图投入巨大。吴欣鸿透露，首先是研发费用层面，今年上半年美图的研发投入将近 3 亿，营收占比超过 20%，在业内是一个比较高的比例；其次在团队人员层面，现在跟大模型相关的工程师在 600 人左右，此外还有很多设计师、产品经理等参与到了大模型相关工作。

吴欣鸿向 InfoQ 等媒体表示，美图现在可以说是全员拥抱 AI，“发展太快了，我们的认知甚至是以天为单位再刷新，所以我们需要内部有很强的紧迫感，让大家对视觉大模型有很深度的理解和应用，才能更好地去服务用户、赋能行业。”

与市面上现有的其他大模型相比，美图的视觉大模型有何特别之处？刘洛麒认为，Miracle Vision 的独特性在于其具备美学的倾向性，团队在研发过程中，会基于模型建立美学的评估体系，不断优化在美学上的效果，其模型架构、模型结构都是以这个为出发点来组织和建立的。

在这次交流过程中，“美学”可以说是美图管理层提及频率最高的一个关键词。

在美图公司高级技术副总裁杨明花看来，美图做视觉大模型的核心竞争力，除了来自过去十多年美图在数据、算法、算力等方面的长期积累，“美学”也是非常关键的一项。据她介绍，美图在这方面积累了非常多年的经验，有很深厚基础，美图的算法模型会以美学和创造性为目标来进行训练，从而达到更好的效果。

具体而言，模型每次训练，都会按照美图的美学体系去评估需要调整的方向，在训练过程中，设计师和美学领域创作者的参与程度非常高。

基于对“美学”的重视，美图所采取的是一个设计师主导的研发模式，美图视觉大模型的总负责人由美图公司设计副总裁、设计中心负责人许俊担任，这与业内做视觉大模型的公司都不一样。

众所周知，大模型评估很难，行业内有很多榜单从不同维度来评估什么样的 AI 大模型更好。但在美图看来，美学和用户的连接是评估大模型更好的方式，所以团队也以这个为出发点建立大模型的评估体系，进而反推技术研发。

做大模型，除了技术能力必不可少，在美图看来，形成用户反馈的闭环也很关键。而这正是美图的另一个优势，陈剑毅补充表示，基于美图众多应用产品和超过 2 亿的用户群体，团队能够快速得到真实用户对于大模型效果的反馈。一个效果做好之后，团队会以小流量的方式推到线上，然后立马就可以看到用户的点赞或吐槽，团队也可以跟用户交流，反复调整效果，这样模型就能以最快的速度跟应用场景结合做改进。

吴欣鸿强调，把用户的正反馈或负反馈投入到训练过程中，会成为未来大模型竞争力的一个重要优势。只有构建一个技术、用户场景、商业模式的完整闭环，才能基于用户或客户产生的反馈持续改进、快速迭代，迭代速度也是竞争的关键。

视觉大模型应用尚处于探索期

在吴欣鸿看来，对于各行各业的从业者而言，AI 视觉大模型带来的改变不止限于视觉效果的提升，更重要的价值的是对工作流的改造和创新。

“AI 视觉大模型的本质，是无穷无尽的视觉创意库。应用层相当于内容提取器，根据用户的需求，从这个巨大的创意库中提取所需要的内容，让用户在特定场景中使用。AI 视觉大模型和应用之间相辅相成，大模型为应用提供技术支撑，应用反哺大模型的效果迭代。”

当前，AI 视觉大模型主要被运用于生成各类艺术作品，包括绘画、摄影和设计图稿，能展现出初步的效果，但这只是起点。吴欣鸿相信 AI 的进化速度会很快，将来在 AI 的帮助下，万物皆可生成。

吴欣鸿表示，虽然目前国内已经有很多团队在研发视觉大模型，但能将视觉大模型与生产环节结合的企业数量相对较少。在他看来，大模型真正在生产端普及使用需要解决三个问题：垂直领域极致效果、工作流整合、变现能力。随着 AI 视觉大模型和生产端的磨合，这三个问题会被逐步解决。

吴欣鸿表示，视觉大模型应用普及将经历三个阶段：探索期、高速发展期、成熟期。

其中，2024 年之前是探索期，厂商在这一阶段进行不断探索，效果勉强及格，视觉大模型在工作流里支持单任务的提效，验证场景的可行性；2024-2025 年进入高速发展期，效果会逐步精进，有明确的场景，带来工作流的升级；2026-2030 年进入成熟期，视觉大模型的生成效果会非常出色，凡是设计与创意，视觉大模型都是标配。而设计的边界也会不断拓宽，视觉大模型将助力千万设计场景，引领美学的升级与社会经济增长。

评论 1 条评论

发布

姜茶

才100天就从 1.0 到 3.0 了，这个版本号规划的也太随意了。。。

2023-10-12 12:34 · 浙江

 0 回复

没有更多了

创作场景

设计师主导的研发模式下，美图自研视觉大模型 100 天进化

MiracleVision 3.0 核心能力

从 1.0 到 3.0，美图自研视觉大模型演进历程

做视觉大模型，美图强在哪？

视觉大模型应用尚处于探索期

评论 1 条评论

C语言实现哈希搜索算法

PoseiSwap 即将开启 POSE 单币质押，治理体系将全面运行

性能测试|JMeter逻辑控制器（四）

2023-07-22：一共有n个项目，每个项目都有两个信息， projects[i] = {a, b}，表示i号项目做完要a天，但是当你投入b个资源，它就会缩短1天的时间，你一共有k个资源，你的目

异步编程框架：Workflow的计算调度算法

PoseiSwap 即将开启 POSE 单币质押，治理体系将全面运行

IDE暗黑主题推荐-Dracula

文本生成图像DALL·E 2背后的原理——Diffusion Model | 社区征文

解开心锁，放飞自我

JavaScript程序设计模式小技巧——策略模式，快看快用！！！

一个逻辑完备的线程池

如何通过网关降低大模型的调用费用，并提升合规性

本地 IDC 中的 K8s 集群如何以 Serverless 方式使用云上计算资源

VSCode同时编译多个C文件

PoseiSwap 即将开启 POSE 单币质押，治理体系将全面运行

MongoDB源码学习：创建记录和索引（insertDocuments）

性能测试|JMeter逻辑控制器（七）

产品服务谁？产品做什么服务？

调整自我，安然入眠

性能测试|JMeter逻辑控制器（二）

性能测试|JMeter逻辑控制器(三)

性能测试|JMeter逻辑控制器（五）

性能测试|JMeter逻辑控制器（六）

创作场景

设计师主导的研发模式下，美图自研视觉大模型 100 天进化

MiracleVision 3.0 核心能力

从 1.0 到 3.0，美图自研视觉大模型演进历程

做视觉大模型，美图强在哪？

视觉大模型应用尚处于探索期

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载