“大家没日没夜地在视觉大模型上投入,我们也真金白银花了很多钱。”美图公司创始人、董事长兼首席执行官吴欣鸿在提到新发布的视觉大模型时说道。
10 月 9 日,美图发布了自研 AI 视觉大模型 MiracleVision 3.0 版本。实际上,在引入大型模型之前,美图已经将很多 AI 技术应用到美图秀秀、美颜相机等产品中,比如图像识别、图像处理和图像生成等等。
至今已有十多年历史的美图影像研究院(MT Lab)深耕深度学习,如今也开始将重点转向大模型研究。在美图公司技术副总裁兼美图影像研究院负责人刘洛麒看来,团队在技术方向上的升级是自然而然的事情。
“大模型的数据量级和模型规模相比之前确实要更大些,需要进行大量的开发和对比实验,这是必然的。但在多年的 AI 算法研发中,我们已经积累了深厚的底层技术积累,这为大模型的研发提供了坚实的技术基础。”刘洛麒说道,“我们在北京、深圳和厦门都设有研发中心,吸引了国内外众多高校和研究机构的顶尖人才。我们还持续跟踪 AI 行业的前沿发展和学术研究工作,保证自身的视野始终位于行业的最前端,。”
那么,美图的视觉大模型具体经历了哪些开发和打磨?未来又将如何利用大模型实现商业变现?
“量变引发质变”的大模型
MiracleVision 是基于扩散模型理论的文生图模型,目前是数十亿的参数规模。核心部分有两个:一是将文本转化为潜在编码,以控制扩散模型生成过程的文本编码模块。二是采用扩散模型的生成模块,还有一些附加模块,例如超分辨率模块,用于在生成后对图像进行放大并增强细节。
美图的技术团队要先收集高质量的数据并进行筛选。通常,团队会用自动化算法对训练数据进行预处理,包括增强图像的清晰度和画质、调整色调、裁剪等,然后使用自研的模型架构进行训练,最后进行效果调整。
MiracleVision 演进经历了三个关键阶段。
在 1.0 版本期间,美图着重构建了基础架构和模型美学体系,为后续效果的引入奠定了基础。
对美图的技术团队来说,一开始技术体系的搭建显然是个很大的挑战,特别是在处理大规模数据方面。团队提出了很多标准和设想,并进行了大量实验。
“因为之前缺乏这方面的经验,我们需要思考如何扩展数据规模来支持上亿级别的训练,同时保持高效的 GPU 利用率,确保效果可控。我们进行了一系列实验和探索,最终确定了整个流程。”刘洛麒说道。
在 2.0 版本中,更注重引入高质量数据进行模型训练,主要目标是提高美观度、细节多元化,并增强文生图的准确性,以此适应更多场景。
技术发展更像是量变引发质变,而不是在一个特定的节点突然改变一切。经过大量的数据积累,团队在内测 2.0 版本时,大模型生成的图像开始展现出创造力,展现出整体效果。
“这让我们非常振奋,因为它超出了我们的预期。”美图公司副总裁、设计中心总经理许俊说道,“当时,我们都沉浸到了这个大模型的效果中,感觉不再是工作,而更像是在创作自己的东西。这种体验非常独特。”
如今,MiracleVision 已经进入 3.0 版本,团队集中精力来提升模型的可控性,以便用户能够更精确地进行细节控制和局部编辑,同时引入更多与工作流结合的数据增强,特别是在垂直领域方面。
这里的可控性包括三个方面,一是通过中文语义描述的精准理解来达到想要的效果,二是可以对生成图像进行局部修改以及在修改的区域生成新的图像内容;三是提高分辨率,可以清晰呈现微小的细节,例如发丝细节。这种可控性的提升需要的是综合技术能力,既有算法优化,也需要设计师的经验和审美来帮助微调。
除了通用领域的可控性,如何做好垂直领域的效果精致度也是一个难点。美图内部花了很多精力在不同垂直领域效果上进行各种调试,针对每个领域制定不同的训练、生成和调试方式。
从 1.0 到 3.0 的效果对比
算力方面,美图提供基础算力支持,包括华为云等公有云以及自建的私有云部署,使得美图能够使用高性能的 GPU 卡进行不同规模的深度学习训练。
在此基础上,美图设立了专门的团队,采取了一系列措施来提高大模型训练效率和资源的利用率,包括持续优化分布式训练框架,构建大规模 AI 高性能网络通信;建立健全的数据监控系统,用于监测每个 GPU 的使用率、功率消耗以及数据传输速度等,以此确保 GPU 的整体利用率保持高效。
目前发布的 MiracleVision 主要是做图片生成,后续团队还将其扩展到视频生成领域。视频生成对连续性的要求更高,即生成的画面帧需要保持连贯,并且清晰度和质量要更高。
“设计师+研发”的化学反应
美图技术生态系统都与大模型相关,相关工程师有数百人,包括参与核心大模型训练和部署的研发,和基于大型模型构建具体应用场景的研发,如 AI 模特和 AI 动漫等方向的工程师。
“美图的技术团队相当庞大,其独特之处在于,我们深刻理解业务和用户产品,而不仅仅专注于研究技术本身。”刘洛麒说道,团队将用户产品、设计师效果与技术有机结合,从用户用户反馈中反推技术的演进和提升。
刘洛麒提到的“设计师效果”,就是为美图为解决视觉大模型研发的另一个挑战:对美学的理解,而设计的一个重要环节。
“之前国内的一些图像大模型开发可能比我们开始得更早,但为什么他们的结果不太理想呢?我们将大模型训练比喻成一个小孩学习绘画,如果小孩开始学画画时看到的都是美好的事物,那就避免了想象出不美好的东西。”许俊表示。
美,不像数学是一件有标准答案的事情,但生成图像需要标准。
因此,美图设计师和外部艺术家早期花了很长的时间共同建立了一套美学评估体系。这套美学评估体系涵盖了数十个维度,每个维度设置了相应的得分,这些得分综合起来形成最终的美学分数。团队以每个维度的得分作为模型训练标准。
这套评估体系贯穿了美图的整个大模型生命周期,包括前期数据筛选标准和模型效果调整标准等。
实际上,这种设计师深入参与研发的方式,是美图一直采取的研发方法,不只是大模型领域。
大模型给谁用?
做出大模型只是开始,怎么让大模型产生收益是每个公司都要考虑的问题。
经过调研,美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅发现,大模型赛道对于创业公司来说很不友好,最后可能只会剩下比较成熟或者中大型公司。这其中的一个关键点就是要回答“模型给谁用”的问题。
陈剑毅表示,给别人用的前提是要有一个应用层作为辅助和支撑。创业公司做出一个大模型,如果没有应用层,就得自己做然后花钱推广,结果也不一定理想。
那么,美图的视觉大模型要给谁用?
首先是要给自己用,现在基本上美图的大部分产品都逐渐融入了 MiracleVision。其次,通过美图产品,个人用户也间接用上了 MiracleVision。而通过用户的反馈,美图团队会进行针对性训练,以最快的速度调整效果,与用户应用场景结合。这种直接 to C 带来的闭环也是美图优势所在。
但这只是大模型在现有产品体系的应用,还不够。如何让大模型产生降本增效的能力是美图关注的重点,美图的目标是做 AI 原生工作流。
所谓原生工作流就是跳出传统工作流,利用 AI 能力更高效、高质量地完成创作。美图首先瞄向了电商、广告、游戏、动漫、影视这五大互联网性较强、长尾效应也高的行业。比如电商诞生于互联网,其中的一些小商家对效果的要求相对容易满足,美图可以为这类用户提供服务。美图希望可以在上述五大行业中实现落地,并获得一些重要的客户和行业订单。
实际上,这种思路意味着美图需要分别去了解不同行业的需求,背后的工作量是不小的。为此,美图针对不同行业设置了不同的团队,负责了解具体行业的需求,并构建对应的产品。在产品落地的过程中,需求也会给到研发团队,业务团队与研发团队共同研发。美图影像研究院的研发也是业务驱动的,会优先考虑业务需求,然后利用最新的技术来解决用户的问题。
不过,在与不同行业合作时,美图也会面临一些问题。
比如,最初提供的一些概念性想法和图像设计,虽然效果可能很酷炫,但由于涉及到一些特殊的材料或技术,在实际生产中却难以应用。为此,团队需要更深入了解行业的切实需求和解决方案的可行性,以脱离提供抽象概念的误区。
“与行业专业人士的合作非常重要,因为他们可以提供反馈,告诉我们真正的痛点是什么。通过交流,我们可以更好地调整产品和大模型,以满足他们的需求,解决他们的问题。这种合作是实现大模型在行业落地的关键。”许俊说道。
产品设计过程中,美图团队的重点在于确保用户不需要经历冗长的学习曲线,无需过多的介绍和解释就可以使用。用户只需将创意以提示词的方式表达,然后交给大模型来实现想要的效果。如果有需要,用户还可以通过一些高级选项来微调或控制大模型的输出。
目前,不同行业的用户对这种变化的接受速度不同。电商和游戏行业是两个转型较快的行业。在电商行业,很多时候需要与摄影师安排时间线下拍摄模特照片或商品图像,流程效率低下且成本较高。因此,电商用户更容易接受 AI 工作流程,因为电商本身是在线平台,具有更快的操作速度,可以显著降低成本。
游戏行业类似。以前游戏制作通常需要从零开始绘制粗糙的原始图像,与最终效果相差甚远。现在,一些游戏制作公司使用 AIGC 工具来绘制更精致的效果图,甚至在最终产品的渲染过程中应用,这样绘图成本可以大大降低。
不过,让行业里的所有人都丢掉之前工作方式、全面拥抱大模型还有些挑战。根据美图团队经验,现在离大模型最近的是一群“传播者”,即新媒体运营、电商运营和网红,他们没有太多之前的经验包袱,能够很快适应新的、更简单的工作流程。
“AI 原生工作流并不代表 AI 工具会取代他们的地位,因为他们仍然需要提供大量的创意和想法。AI 工具只是能更快地实现他们的构想。”许俊强调。
目前,美图团队正在视觉大模型基础上,围绕特定垂直领域对大模型进行针对性训练,让垂直领域性能达到极致。
在变现方面,美图的用户付费模式具有多种变体。用户可以选择按月订阅,也可以选择单独购买特定功能。此外,广告等各种方式也可以用来产生收入,以弥补大模型的成本。
结束语
就像普通用户会用美图秀秀做短视频封面或者简单的带货图片,大模型的使用并不需要专业技能加持,更低的门槛意味着更多的用户参与。
对于美图来说,大模型已然是其必争之地。就像吴欣鸿曾说的,随着视觉大模型和生产端的磨合,垂直领域的极致效果、工作流整合和变现能力,这三个问题会被逐步解决。美图能否趟平这条道路,我们拭目以待。
评论