写点什么

设计师主导的研发模式下,美图自研视觉大模型 100 天进化

  • 2023-10-09
    北京
  • 本文字数:3202 字

    阅读完需:约 11 分钟

大小:1.76M时长:10:13
设计师主导的研发模式下,美图自研视觉大模型100天进化

*封面图片来源自笔者使用美图秀秀-AI 绘画和 AI 扩图功能生成


10 月 9 日,美图公司举办 15 周年生日会,并发布自研 AI 视觉大模型 MiracleVision(奇想智能)3.0 版本。面世 100 天后,美图 AI 视觉大模型 MiracleVision3.0 将全面应用于美图旗下影像与设计产品,并落地电商、广告、游戏、动漫、影视五大行业,助力五大行业“工作流提效”。

 


会后,围绕美图视觉大模型的独特性、研发模式、核心竞争力等问题,美图公司管理层与 InfoQ 等媒体展开了进一步交流。



MiracleVision 3.0 核心能力

 

据美图公司创始人、董事长兼首席执行官吴欣鸿介绍,三个月前刚发布时,MiracleVision 的绘画水平还停留在初级阶段,如今 MiracleVision 3.0 版本已经能描绘出真实细腻的画面细节。



美图公司将 MiracleVision 的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

 

在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能来降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,通过“提示词精准控制”功能,MiracleVision 能满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

 

在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

 

对 MiracleVision 感兴趣用户可以访问 AI 视觉创作工具“WHEE”官网体验。目前美图大部分产品也都逐渐融入了 MiracleVision 大模型,其中美图秀秀作为一个影像入口,整合了美图大部分产品,用户也可以在美图秀秀上一站式地感受美图视觉大模型能力。

从 1.0 到 3.0,美图自研视觉大模型演进历程

 

自 6 月 19 日发布以来,美图 AI 视觉大模型 Miracle Vision 已经完成 1.0、2.0、3.0 三个版本的进化。

 

美图公司设计副总裁、设计中心负责人许俊用三个关键词总结了 Miracle Vision 各个版本的状态。1.0 版本是勤奋好学,刚到及格线,初步建立美学体系,但各个维度还需要不断训练;2.0 版本是奇思妙想,通过持续训练,模型的创作力得到提升,生成结果更加有想象力;3.0 版本是智能创作,在之前的基础上可以做到更加精准智能的控制,也更加精细,细节质感显著提升。

 

在不同阶段,美图大模型团队需要解决的技术难点和挑战也各不相同。

 

据美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒介绍,在 1.0 阶段,团队主要工作是搭建大模型的架构和基础,使后续 2.0 和 3.0 的研发可以达到比较好的准备条件,这个阶段的难点主要在于怎么搭建好这个基础架构和平台。

 

在 2.0 阶段,团队需要与外部设计师,包括艺术院校的老师和学生一起去构建一个比较高质量的数据集,使大模型在美学上可以达到比较好的状态。

 

在 3.0 阶段,需要攻克的技术难点主要是模型的可控性和在垂直领域的效果精致度,其中可控性方面,不管是细节控制还是局部编辑,要能使用户想要达到的效果在模型的技术层面能达到很好的实现,这是一个很大的挑战。而垂直领域的效果精致度,需要团队花很多精力投入在每个不同的垂直领域效果调试上,针对每个领域的训练方式、生成方式和调试方式都是不一样的。

 

美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅补充表示,如果做通用的视觉大模型,把全网的各种图片拿过来做一些训练,其实很好做,但这样做出来的模型,最终生成的东西其实用不到实际工作过程中,因为每个垂直领域细分下去还会有特别多不同的品类,通用模型无法满足实际需求。

做视觉大模型,美图强在哪?

 

围绕 AI 视觉大模型上,美图投入巨大。吴欣鸿透露,首先是研发费用层面,今年上半年美图的研发投入将近 3 亿,营收占比超过 20%,在业内是一个比较高的比例;其次在团队人员层面,现在跟大模型相关的工程师在 600 人左右,此外还有很多设计师、产品经理等参与到了大模型相关工作。

 

吴欣鸿向 InfoQ 等媒体表示,美图现在可以说是全员拥抱 AI,“发展太快了,我们的认知甚至是以天为单位再刷新,所以我们需要内部有很强的紧迫感,让大家对视觉大模型有很深度的理解和应用,才能更好地去服务用户、赋能行业。”

 

与市面上现有的其他大模型相比,美图的视觉大模型有何特别之处?刘洛麒认为,Miracle Vision 的独特性在于其具备美学的倾向性,团队在研发过程中,会基于模型建立美学的评估体系,不断优化在美学上的效果,其模型架构、模型结构都是以这个为出发点来组织和建立的。

 

在这次交流过程中,“美学”可以说是美图管理层提及频率最高的一个关键词。

 

在美图公司高级技术副总裁杨明花看来,美图做视觉大模型的核心竞争力,除了来自过去十多年美图在数据、算法、算力等方面的长期积累,“美学”也是非常关键的一项。据她介绍,美图在这方面积累了非常多年的经验,有很深厚基础,美图的算法模型会以美学和创造性为目标来进行训练,从而达到更好的效果。

 

具体而言,模型每次训练,都会按照美图的美学体系去评估需要调整的方向,在训练过程中,设计师和美学领域创作者的参与程度非常高。

 

基于对“美学”的重视,美图所采取的是一个设计师主导的研发模式,美图视觉大模型的总负责人由美图公司设计副总裁、设计中心负责人许俊担任,这与业内做视觉大模型的公司都不一样。

 

众所周知,大模型评估很难,行业内有很多榜单从不同维度来评估什么样的 AI 大模型更好。但在美图看来,美学和用户的连接是评估大模型更好的方式,所以团队也以这个为出发点建立大模型的评估体系,进而反推技术研发。

 

做大模型,除了技术能力必不可少,在美图看来,形成用户反馈的闭环也很关键。而这正是美图的另一个优势,陈剑毅补充表示,基于美图众多应用产品和超过 2 亿的用户群体,团队能够快速得到真实用户对于大模型效果的反馈。一个效果做好之后,团队会以小流量的方式推到线上,然后立马就可以看到用户的点赞或吐槽,团队也可以跟用户交流,反复调整效果,这样模型就能以最快的速度跟应用场景结合做改进。

 

吴欣鸿强调,把用户的正反馈或负反馈投入到训练过程中,会成为未来大模型竞争力的一个重要优势。只有构建一个技术、用户场景、商业模式的完整闭环,才能基于用户或客户产生的反馈持续改进、快速迭代,迭代速度也是竞争的关键。

视觉大模型应用尚处于探索期

 

在吴欣鸿看来,对于各行各业的从业者而言,AI 视觉大模型带来的改变不止限于视觉效果的提升,更重要的价值的是对工作流的改造和创新。

 

“AI 视觉大模型的本质,是无穷无尽的视觉创意库。应用层相当于内容提取器,根据用户的需求,从这个巨大的创意库中提取所需要的内容,让用户在特定场景中使用。AI 视觉大模型和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。”

 

当前,AI 视觉大模型主要被运用于生成各类艺术作品,包括绘画、摄影和设计图稿,能展现出初步的效果,但这只是起点。吴欣鸿相信 AI 的进化速度会很快,将来在 AI 的帮助下,万物皆可生成。

 

吴欣鸿表示,虽然目前国内已经有很多团队在研发视觉大模型,但能将视觉大模型与生产环节结合的企业数量相对较少。在他看来,大模型真正在生产端普及使用需要解决三个问题:垂直领域极致效果、工作流整合、变现能力。随着 AI 视觉大模型和生产端的磨合,这三个问题会被逐步解决。

 


吴欣鸿表示,视觉大模型应用普及将经历三个阶段:探索期、高速发展期、成熟期。

 

其中,2024 年之前是探索期,厂商在这一阶段进行不断探索,效果勉强及格,视觉大模型在工作流里支持单任务的提效,验证场景的可行性;2024-2025 年进入高速发展期,效果会逐步精进,有明确的场景,带来工作流的升级;2026-2030 年进入成熟期,视觉大模型的生成效果会非常出色,凡是设计与创意,视觉大模型都是标配。而设计的边界也会不断拓宽,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

2023-10-09 23:066513
用户头像
蔡芳芳 InfoQ主编

发布了 801 篇内容, 共 563.8 次阅读, 收获喜欢 2794 次。

关注

评论 1 条评论

发布
用户头像
才100天就从 1.0 到 3.0 了,这个版本号规划的也太随意了。。。
2023-10-12 12:34 · 浙江
回复
没有更多了
发现更多内容

反VC情绪:加密市场需要新的分布式代币发行方式

大瞿科技

核心竞争力,到底是什么?

老张

竞争力 职场成长 核心竞争力

批量采集抖音商品详情数据:推荐你使用API(通过商品id取商品详情商品主图sku属性)

tbapi

抖音商品详情数据接口 抖音API

Maven 中的 classifier 属性用过没?

江南一点雨

Java maven

CCIG 2024:合合信息文档解析技术突破与应用前景

海拥(haiyong.site)

文档识别

Scroll 生态明星项目Pencils Protocol,发展潜力巨大

股市老人

ChatGPT-4o有什么特别之处?

石臻臻的杂货铺

AI ChatGPT ChatGPT4

Scroll 生态明星项目Pencils Protocol,发展潜力巨大

BlockChain先知

Moonchain 与穿戴设备 Blueberry Ring 整合,基于自身 DePIN 生态为 IoT 领域深度赋能

股市老人

Scroll 上的明星项目Pencils Protocol ,缘何被严重低估?

股市老人

反VC情绪:加密市场需要新的分布式代币发行方式

股市老人

Apache IoTDB进行IoT相关开发实践

芯动大师

应用 IoTDB Apache IoTDB

怎么把Python脚本打包成可执行程序?

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言

什么是数据资产管理?数据资产管理包括了哪些内容?

优秀

数据资产管理

30天拿下Rust之输入输出

希望睿智

rust语言 输入输出

30天拿下Rust之命令行参数

希望睿智

命令行 rust语言 命令行参数解析

反VC情绪:加密市场需要新的分布式代币发行方式

BlockChain先知

如何在 JS 中快速读取文件

南城FE

JavaScript 前端 nodejs

利用依赖结构矩阵管理架构债务

俞凡

架构

Scroll 上的明星项目Pencils Protocol ,缘何被严重低估?

石头财经

一文解析Scroll 生态明星项目Pencils Protocol,严重被低估

西柚子

GPT-4o API 申请开发部署应用:一篇全面的指南

蓉蓉

openai gpt4o

设计师主导的研发模式下,美图自研视觉大模型100天进化_生成式 AI_蔡芳芳_InfoQ精选文章