写点什么

美图的这 100 天:三月三版本,大模型博弈中谁能笑到最后?

  • 2023-11-28
    北京
  • 本文字数:4116 字

    阅读完需:约 14 分钟

大小:2.02M时长:11:45
美图的这100天:三月三版本,大模型博弈中谁能笑到最后?

“大家没日没夜地在视觉大模型上投入,我们也真金白银花了很多钱。”美图公司创始人、董事长兼首席执行官吴欣鸿在提到新发布的视觉大模型时说道。

 

10 月 9 日,美图发布了自研 AI 视觉大模型 MiracleVision 3.0 版本。实际上,在引入大型模型之前,美图已经将很多 AI 技术应用到美图秀秀、美颜相机等产品中,比如图像识别、图像处理和图像生成等等。

 

至今已有十多年历史的美图影像研究院(MT Lab)深耕深度学习,如今也开始将重点转向大模型研究。在美图公司技术副总裁兼美图影像研究院负责人刘洛麒看来,团队在技术方向上的升级是自然而然的事情。

 

“大模型的数据量级和模型规模相比之前确实要更大些,需要进行大量的开发和对比实验,这是必然的。但在多年的 AI 算法研发中,我们已经积累了深厚的底层技术积累,这为大模型的研发提供了坚实的技术基础。”刘洛麒说道,“我们在北京、深圳和厦门都设有研发中心,吸引了国内外众多高校和研究机构的顶尖人才。我们还持续跟踪 AI 行业的前沿发展和学术研究工作,保证自身的视野始终位于行业的最前端,。”

 

那么,美图的视觉大模型具体经历了哪些开发和打磨?未来又将如何利用大模型实现商业变现?

“量变引发质变”的大模型

 

MiracleVision 是基于扩散模型理论的文生图模型,目前是数十亿的参数规模。核心部分有两个:一是将文本转化为潜在编码,以控制扩散模型生成过程的文本编码模块。二是采用扩散模型的生成模块,还有一些附加模块,例如超分辨率模块,用于在生成后对图像进行放大并增强细节。

 

美图的技术团队要先收集高质量的数据并进行筛选。通常,团队会用自动化算法对训练数据进行预处理,包括增强图像的清晰度和画质、调整色调、裁剪等,然后使用自研的模型架构进行训练,最后进行效果调整。

 

MiracleVision 演进经历了三个关键阶段。

 

在 1.0 版本期间,美图着重构建了基础架构和模型美学体系,为后续效果的引入奠定了基础。

 

对美图的技术团队来说,一开始技术体系的搭建显然是个很大的挑战,特别是在处理大规模数据方面。团队提出了很多标准和设想,并进行了大量实验。

 

“因为之前缺乏这方面的经验,我们需要思考如何扩展数据规模来支持上亿级别的训练,同时保持高效的 GPU 利用率,确保效果可控。我们进行了一系列实验和探索,最终确定了整个流程。”刘洛麒说道。

 

在 2.0 版本中,更注重引入高质量数据进行模型训练,主要目标是提高美观度、细节多元化,并增强文生图的准确性,以此适应更多场景。

 

技术发展更像是量变引发质变,而不是在一个特定的节点突然改变一切。经过大量的数据积累,团队在内测 2.0 版本时,大模型生成的图像开始展现出创造力,展现出整体效果。

 

“这让我们非常振奋,因为它超出了我们的预期。”美图公司副总裁、设计中心总经理许俊说道,“当时,我们都沉浸到了这个大模型的效果中,感觉不再是工作,而更像是在创作自己的东西。这种体验非常独特。”

 

如今,MiracleVision 已经进入 3.0 版本,团队集中精力来提升模型的可控性,以便用户能够更精确地进行细节控制和局部编辑,同时引入更多与工作流结合的数据增强,特别是在垂直领域方面。

 

这里的可控性包括三个方面,一是通过中文语义描述的精准理解来达到想要的效果,二是可以对生成图像进行局部修改以及在修改的区域生成新的图像内容;三是提高分辨率,可以清晰呈现微小的细节,例如发丝细节。这种可控性的提升需要的是综合技术能力,既有算法优化,也需要设计师的经验和审美来帮助微调。

 

除了通用领域的可控性,如何做好垂直领域的效果精致度也是一个难点。美图内部花了很多精力在不同垂直领域效果上进行各种调试,针对每个领域制定不同的训练、生成和调试方式。


 

从 1.0 到 3.0 的效果对比

 

算力方面,美图提供基础算力支持,包括华为云等公有云以及自建的私有云部署,使得美图能够使用高性能的 GPU 卡进行不同规模的深度学习训练。

 

在此基础上,美图设立了专门的团队,采取了一系列措施来提高大模型训练效率和资源的利用率,包括持续优化分布式训练框架,构建大规模 AI 高性能网络通信;建立健全的数据监控系统,用于监测每个 GPU 的使用率、功率消耗以及数据传输速度等,以此确保 GPU 的整体利用率保持高效。

 

目前发布的 MiracleVision 主要是做图片生成,后续团队还将其扩展到视频生成领域。视频生成对连续性的要求更高,即生成的画面帧需要保持连贯,并且清晰度和质量要更高。

 

“设计师+研发”的化学反应

 

美图技术生态系统都与大模型相关,相关工程师有数百人,包括参与核心大模型训练和部署的研发,和基于大型模型构建具体应用场景的研发,如 AI 模特和 AI 动漫等方向的工程师。

 

“美图的技术团队相当庞大,其独特之处在于,我们深刻理解业务和用户产品,而不仅仅专注于研究技术本身。”刘洛麒说道,团队将用户产品、设计师效果与技术有机结合,从用户用户反馈中反推技术的演进和提升。

 

刘洛麒提到的“设计师效果”,就是为美图为解决视觉大模型研发的另一个挑战:对美学的理解,而设计的一个重要环节。

 

“之前国内的一些图像大模型开发可能比我们开始得更早,但为什么他们的结果不太理想呢?我们将大模型训练比喻成一个小孩学习绘画,如果小孩开始学画画时看到的都是美好的事物,那就避免了想象出不美好的东西。”许俊表示。

 

美,不像数学是一件有标准答案的事情,但生成图像需要标准。

 

因此,美图设计师和外部艺术家早期花了很长的时间共同建立了一套美学评估体系。这套美学评估体系涵盖了数十个维度,每个维度设置了相应的得分,这些得分综合起来形成最终的美学分数。团队以每个维度的得分作为模型训练标准。

 

这套评估体系贯穿了美图的整个大模型生命周期,包括前期数据筛选标准和模型效果调整标准等。

 

实际上,这种设计师深入参与研发的方式,是美图一直采取的研发方法,不只是大模型领域。

 

大模型给谁用?

 

做出大模型只是开始,怎么让大模型产生收益是每个公司都要考虑的问题。

 

经过调研,美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅发现,大模型赛道对于创业公司来说很不友好,最后可能只会剩下比较成熟或者中大型公司。这其中的一个关键点就是要回答“模型给谁用”的问题。

 

陈剑毅表示,给别人用的前提是要有一个应用层作为辅助和支撑。创业公司做出一个大模型,如果没有应用层,就得自己做然后花钱推广,结果也不一定理想。

 

那么,美图的视觉大模型要给谁用?

 

首先是要给自己用,现在基本上美图的大部分产品都逐渐融入了 MiracleVision。其次,通过美图产品,个人用户也间接用上了 MiracleVision。而通过用户的反馈,美图团队会进行针对性训练,以最快的速度调整效果,与用户应用场景结合。这种直接 to C 带来的闭环也是美图优势所在。

 

但这只是大模型在现有产品体系的应用,还不够。如何让大模型产生降本增效的能力是美图关注的重点,美图的目标是做 AI 原生工作流。

 

所谓原生工作流就是跳出传统工作流,利用 AI 能力更高效、高质量地完成创作。美图首先瞄向了电商、广告、游戏、动漫、影视这五大互联网性较强、长尾效应也高的行业。比如电商诞生于互联网,其中的一些小商家对效果的要求相对容易满足,美图可以为这类用户提供服务。美图希望可以在上述五大行业中实现落地,并获得一些重要的客户和行业订单。


 

实际上,这种思路意味着美图需要分别去了解不同行业的需求,背后的工作量是不小的。为此,美图针对不同行业设置了不同的团队,负责了解具体行业的需求,并构建对应的产品。在产品落地的过程中,需求也会给到研发团队,业务团队与研发团队共同研发。美图影像研究院的研发也是业务驱动的,会优先考虑业务需求,然后利用最新的技术来解决用户的问题。

 

不过,在与不同行业合作时,美图也会面临一些问题。

 

比如,最初提供的一些概念性想法和图像设计,虽然效果可能很酷炫,但由于涉及到一些特殊的材料或技术,在实际生产中却难以应用。为此,团队需要更深入了解行业的切实需求和解决方案的可行性,以脱离提供抽象概念的误区。

 

“与行业专业人士的合作非常重要,因为他们可以提供反馈,告诉我们真正的痛点是什么。通过交流,我们可以更好地调整产品和大模型,以满足他们的需求,解决他们的问题。这种合作是实现大模型在行业落地的关键。”许俊说道。

 

产品设计过程中,美图团队的重点在于确保用户不需要经历冗长的学习曲线,无需过多的介绍和解释就可以使用。用户只需将创意以提示词的方式表达,然后交给大模型来实现想要的效果。如果有需要,用户还可以通过一些高级选项来微调或控制大模型的输出。

 

目前,不同行业的用户对这种变化的接受速度不同。电商和游戏行业是两个转型较快的行业。在电商行业,很多时候需要与摄影师安排时间线下拍摄模特照片或商品图像,流程效率低下且成本较高。因此,电商用户更容易接受 AI 工作流程,因为电商本身是在线平台,具有更快的操作速度,可以显著降低成本。

 

游戏行业类似。以前游戏制作通常需要从零开始绘制粗糙的原始图像,与最终效果相差甚远。现在,一些游戏制作公司使用 AIGC 工具来绘制更精致的效果图,甚至在最终产品的渲染过程中应用,这样绘图成本可以大大降低。

 

不过,让行业里的所有人都丢掉之前工作方式、全面拥抱大模型还有些挑战。根据美图团队经验,现在离大模型最近的是一群“传播者”,即新媒体运营、电商运营和网红,他们没有太多之前的经验包袱,能够很快适应新的、更简单的工作流程。

 

“AI 原生工作流并不代表 AI 工具会取代他们的地位,因为他们仍然需要提供大量的创意和想法。AI 工具只是能更快地实现他们的构想。”许俊强调。

 

目前,美图团队正在视觉大模型基础上,围绕特定垂直领域对大模型进行针对性训练,让垂直领域性能达到极致。

 

在变现方面,美图的用户付费模式具有多种变体。用户可以选择按月订阅,也可以选择单独购买特定功能。此外,广告等各种方式也可以用来产生收入,以弥补大模型的成本。 

结束语

 

就像普通用户会用美图秀秀做短视频封面或者简单的带货图片,大模型的使用并不需要专业技能加持,更低的门槛意味着更多的用户参与。

 

对于美图来说,大模型已然是其必争之地。就像吴欣鸿曾说的,随着视觉大模型和生产端的磨合,垂直领域的极致效果、工作流整合和变现能力,这三个问题会被逐步解决。美图能否趟平这条道路,我们拭目以待。


2023-11-28 09:353863

评论

发布
暂无评论
发现更多内容

大厂的职级晋升答辩是什么 · 职级晋升系列

致知Fighting

后端 晋升

MATLAB实现图像的傅立叶变换

timerring

图像处理

一天约了4个面试,复盘一下面试题和薪资福利

王中阳Go

Go 面试 面试题 简历优化 大厂突击

前端已死?我看未必,但「低代码」已剑指前端程序员

引迈信息

面试 Vue 前端 低代码

听说你没法在 JRE 中使用 arthas?不,你可以

阿里巴巴云原生

Java 阿里云 容器 云原生

MYSQL索引知识大集合

阿呆

索引 MySQL InnoDB

架构训练营模块八作业

现在不学习马上变垃圾

架构训练营10期

一文吃透 Go 内置 RPC 原理

捉虫大师

Go RPC

2049 数据合规可信计划共同体研讨会在京召开,易观作为标准起草单位应邀参加

易观分析

数据 数字化

简述XML和JSON

devpoint

JavaScript json xml

跨境数据传输是日常业务中经常且至关重要的组成部分

镭速

请你喝一杯 Corretto?谈一谈 JDK 的新选择

亚马逊云科技 (Amazon Web Services)

Java jdk

安全高效 | AIRIOT智慧工地管理解决方案

AIRIOT

物联网 智慧工地

在云原生和裸金属环境开展NFS存储性能比对测试

QE_LAB

云原生 性能测试

探究计算机视觉新兴能力:如何通过提示检索提高性能?

Zilliz

计算机视觉

AIGC新实践:AI代写神器搞定BI计算字段所有难题

网易数帆

AI BI

运维训练营第16周作业

好吃不贵

浅谈ChatGPT掀起的一波浪潮 | 社区征文

闫同学

ChatGPT

互联网工程师1480道Java面试题及答案整理( 2023年 整理版)

架构师之道

java面试

我的sql没问题为什么还是这么慢|MySQL加锁规则

做梦都在改BUG

Java MySQL 数据库

【技术干货】第1篇:有道实况OCR技术

有道技术团队

2022 IoTDB Summit:中国工程院院士倪光南《发展开源教育,汇天下英才激活中国创新动能》

Apache IoTDB

数据库· ;开源

会声会影2023官方新功能介绍

茶色酒

会声会影2023

LED显示屏配电柜专业知识

Dylan

系统、 电子 LED显示屏

GitLab 专家分享|关于 DevSecOps ,你需要知道这几点

极狐GitLab

DevOps DevSecOps 极狐GitLab 研发运维 安全左移

3.基于Label studio的训练数据标注指南:文本分类任务

汀丶人工智能

信息抽取 数据标注 文本分类 labelstudio

OpenCloudOS 如何以最小成本,高效定位内存泄露路径?

OpenCloudOS

Linux 内存 opencloudOS

从智能进化模型看用友BIP的AI平台化能力

YonBuilder低代码开发平台

2022 IoTDB Summit:Dr.Feinauer《Apache IoTDB 在德国汽车生产线多级数据同步中的应用实践》

Apache IoTDB

数据库·

玩好 StarRocks,大厂 offer 接不完!|字节跳动、小红书、京东物流、唯品会、腾讯音乐要的就是你!

StarRocks

数据库

解读场景化视频制作工具的实现过程

阿里云视频云

云计算 智能生产

美图的这100天:三月三版本,大模型博弈中谁能笑到最后?_AI&大模型_褚杏娟_InfoQ精选文章