限时!亚马逊云科技云从业者认证考试五折,未过免费补考!更有好礼相送! 了解详情
写点什么

美图奇想大模型进阶至 V5,一口气发布 6 款新品喊话友商:快来抄作业

  • 2024-06-13
    北京
  • 本文字数:4077 字

    阅读完需:约 13 分钟

美图奇想大模型进阶至V5,一口气发布6款新品喊话友商:快来抄作业

6 月 12 日,在第三届美图影像节上,美图公司宣布美图奇想大模型(MiracleVision)已升级到 V5,将通过“AI 工作流”进一步助力电商、广告、游戏、影视、动漫五大行业。



相较于传统工作流,美图公司创始人、董事长兼首席执行官吴欣鸿解释了“AI 工作流”的 5 大优势:


首先,传统工作流以客户端算力为主,云端为辅。而在未来,很多能力将会部署在云上,并与客户端进行算力融合。


第二,从完成工作需要一个团队各司其职,在 AI 工作流的助力下,到一个人就是一支团队。AI 能自动化解决很多重复性的劳动,还能让非专业人士,借助 AI 解决专业领域的问题。


第三,AI 能够提供近乎无限的创意灵感库,让你不需要再绞尽脑汁想创意,而是轻松地选创意。


第四,工作流从相对固化到支持任意规划,AI 会像搭积木一样,根据需要调用不同的能力,快速组成工作流,从而完成特定的任务。


最后,在传统工作流中,往往只能靠个体经验做事,但在 AI 工作流中,模型能够基于数据自动迭代,速度远超人工。


而以奇想大模型 V5 模型能力为基石,美图还在会上一口气发布了 6 款围绕「影像与设计」AI 工作流的产品,包括三款产品的重磅升级,以及三款神秘新产品。


美图公司集团高级副总裁陈剑毅总结说:“美图最擅长的事就是化繁为简。因为 PhotoShop 门槛高,所以有了美图秀秀;因为影楼修图效率低,所以有了美图云修;因为制作口播视频有很多卡点,所以有了开拍;因为想让人人都能做设计,所以有了美图设计室。这都是我们对用户需求和垂直场景的深刻理解。”


对于新发布的产品,陈剑毅显然十分满意,他半开玩笑地说:“今天又是友商们抄作业的一天。”

历时 1 年迭代,V5 已涵盖图像、视频、音频、文本大模型


作为美图 AI 产品生态的基石,美图奇想大模型(MiracleVision)发布于 2023 年 6 月第二届美图影像节,为美图全系产品提供 AI 模型能力。


吴欣鸿介绍,经过将近一年迭代,美图奇想大模型已升级到 V5 版本,采用美图自研 DiT 技术架构(Sora 同款的 Transformer 扩散模型架构),涵盖图像大模型、视频大模型、音频大模型和文本大模型,拥有更强的模型架构与更大的参数量,结合更精准的语义理解,实现了更长的视频时长,动态连续性和画面稳定性也大幅提升。



例如,美图秀秀中的 AI 助手 RoboNeo,用户只需要通过简单的语言指令,就可以完成一系列复杂的图像编辑,包括 AI 改图、AI 消除等等。“未来,影像与设计的工作流会变得更简单,用户打打字、说说话就可以轻松完成各种任务。”吴欣鸿表示。


此外,美图奇想大模型(MiracleVision)的升级也进一步完善了美图的 AI 产品生态:应用层有 AI 图像、AI 视频、AI 设计、AI 营销四大模块的多款产品,生态层由中国领先的视觉创意平台站酷和美图 AI 助手 RoboNeo 提供服务,模型层由美图奇想大模型(MiracleVision)为全系产品提供 AI 模型能力。

美图云修 V2,解决调色难、用时多等问题


为了让修图师摆脱重复工作,在第一届美图影像节上,美图在 AI 图像模块中发布了新“家族成员”——美图云修。它相当于影楼版美图秀秀,可以批量导图,让 AI 批量精修。


据陈剑毅介绍,美图云修经过 2 年的发展,年修图张数已经超过 5 亿张。经过对婚纱、写真、儿童这三个市场占有率最高的商业摄影品类的市场调研,发现使用美图云修之后,门店选片平均增收达到了 40%。


在大会上,美图发布了美图云修 V2 版本,主要解决调色难且费时的问题。通过通过智能曝光、AI 滤镜、色彩迁移三步可以进行 AI 批量调色,帮助修图师大幅增效。


除了以上新能力之外,美图云修还开放了 API,服务于各种场景,实现即传、即修、即用。比如商业摄影场景中的照片直播、旅拍;电商场景中的模特精修、服饰美化等诸多场景。

开拍 V2,重构传统口播视频工作流


去年影像节,美图发布了“开拍”,基于 AI 脚本、AI 提词器、AI 文字快剪等功能,可以帮助用户用 AI 制作口播视频。


陈剑毅透露,“开拍”上线一年以来,截止上个月月活跃用户数已接近 70 万,累计内容创作数超 4000 万。与此同时,“开拍”的订阅收入也在高速增长,成为一款月毛利突破百万的 AI 应用。


在这个过程中,引发了美图的三点新思考:第一,在未来,人人都将是口播创作者;第二,口播视频将成为新的创收途径;第三点,AI 将提升口播内容质量。


“在这个趋势之下,我们也发现,即使有了 AI,口播自媒体的起号依然困难重重。”陈剑毅表示。据此,“开拍”V2 版本基于 AI 重构了从前期策划、中期拍摄到后期制作的传统口播视频工作流。


在前期策划环节,AI 脚本支持个人脚本风格的定制,导入三条参考视频,就可以生成同款风格的脚本模板,持续复用;


在拍摄环节,可以借助 AI 辅助真人拍摄,也可以用 AI 数字人生成口播视频;在后期制作环节,通过文字快剪,10 秒就能搞定视频粗剪。然后通过全新的 AI 一键包装功能,可以智能匹配音效、实现花字等各种后期特效。


“过去要花费 1-3 天才能完成的无数任务,用‘开拍’的 AI 工作流,不到半小时就可以搞定。”

美图设计室 V3,从个人提效到组织提效


美图设计室自发布以来,目前已拥有接近 1800 万月活跃用户,每月产生的电商物料超过了 4000 万。成为美图历年来毛利增长最快的产品。


本次大会发布了美图设计室 V3 版本,总结下来主要有 3 大亮点:


第一,AI 批量设计。将商品照片批量导入后,可以自动完成抠图和商品图、海报的生成,并自动适配各平台的物料尺寸,上百张大促活动图 3 秒就能生成;


第二,AI 商品视频。不需要专业设备,手机拍一张商品照片,或者绕着商品拍个 360 度的视频,就可以让 AI 生成商品视频;


第三,支持团队协作。传统工作流中需要由设计师承担所有设计工作,需求方只能等待排期,而基于美图设计室,设计师可以先将公司的 Logo、品牌色、字体、模板等设计资源,一口气上传到共享资源库,后续由需求方直接用这些资源搞定各种设计小任务,比如调整个图片尺寸、改改文字内容等等。

站酷设计服务,搞定找人难、流程复杂、售后难三个痛点


虽然 AI 大大降低了设计门槛,但是在具体业务场景中,仍然有很多场景需要专业设计师支持,提供定制化服务。比如包装设计、企业画册等等。


对此,用户往往会考虑从网上找设计师来帮忙,但传统的设计服务平台存在 3 大痛点:


首先,找人难,面对网站上面眼花缭乱的设计师,很难判断哪个合适;


其次,合作流程复杂,沟通成本高,想合作只能和设计师一个个聊需求,问档期、问价格,千里未必能挑一;


最后,售后难,对交付的作品不满意,但很难申请退款。


为了解决这一系列问题,美图在今年上半年将站酷设计服务收入麾下,而在今天的大会上,美图站酷设计服务正式上线,服务包括 14 大类,涵盖平面、插画、UI、网页,也包括影视、动漫、摄影,甚至空间设计、服装设计等。

奇觅,面向游戏广告解决制作和投放双高的问题


早在 2018 年,美图就投资了一家专注于游戏营销的公司——睿晟天和,并于 2023 年全资收购。在睿晟服务众多游戏客户的过程中,美图发现游戏广告仍存在两大痛点:


第一是制作成本高,游戏公司在设计广告时,既要制作大量的投放物料,又要适应各种平台规格,还要频繁更新和优化,非常消耗时间和设计资源;


第二是投放成本高,游戏营销竞争激烈,不少游戏的获客成本高达一两百块,此外在运营、分析等工作上也投入了大量人力。


“所以,我们将美图的影像技术与睿晟丰富的游戏营销经验相结合,推出了游戏广告 AI 制作与投放平台——奇觅,希望实现游戏广告的高效制作与精准投放,让优秀的游戏被更多玩家看到。”吴欣鸿表示。


据他介绍,奇觅的 AI 灵感库、AI 广告制作和 AI 广告投放,为行业提供了一套完整的游戏营销工作流。


其中,奇觅的 AI 灵感库提供了热点雷达,实时捕捉全网游戏热点,找到游戏玩家关注度最高的话题,可以帮助广告策划人员激发创意;AI 广告解析功能,可以对热门广告的脚本、画面、配音、配乐进行全方位拆解,快速洞察广告火爆的原因;另外,无论是休闲游戏,还是多人竞技、角色扮演等游戏,奇觅的 AI 灵感库都能针对性提供大量爆款脚本,让游戏更出圈。


而在确定脚本后的广告制作环节,根据录屏素材,AI 还能够智能匹配脚本,通过智能剪辑、添加转场、字幕,以及配音配乐,批量制作不同风格的优质游戏广告视频。之前非常冗长的游戏视频广告制作,直接被 AI 压缩至几分钟,让游戏营销如同叠满了 BUFF。


除了视频广告,奇觅还可以批量制作平面广告。基于海量平面广告模版,用户只要上传素材,AI 就能智能匹配模版进行批量制作。


而在正式投放前,AI 投前分析在五分钟内就能完成数十条广告的预审核和投放潜力评估,快速过滤掉高风险和投放潜力低的广告。据此,批量创建投放计划,还可以针对不同的人群搭建差异化的广告策略,仅需十分钟就可以完成三千条不同广告计划的设置。


据了解,奇觅已覆盖巨量引擎、华为、OPPO、vivo 等主流的广告平台,只需 1 分钟就可以直达游戏投放渠道。

坚持自研视频大模型,MOKI 让视频创作前所未有的简单高效


今年 2 月,OpenAI 发布文生视频模型 Sora,并引发文生视频领域的激烈竞赛。


在 Sora 发布后,美图第一时间升级了视频大模型技术架构。从 U-net 架构升级到了更强的 DiT 架构。影像节现场公布的信息显示,升级后的美图视频大模型拥有 6 大亮点:更强的模型架构和更大的参数量,结合更精准的语义理解,实现了更长的视频时长,动态连续性和画面稳定性也大幅提升。


“作为一家以美为核心的公司,我们对效果有着极高的要求。只有自研视频大模型,才能以高标准不断提升效果。同时,只有将模型与产品深度融合,做到模型即产品,才能给用户最好的体验。”吴欣鸿表示。原本需要实拍的视频,通过 AI 就可以生成,这个趋势正越来越近。


美图还通过 AI 短片创作工具 MOKI 解决了视频大模型“故事成片难”、“可控性较差”的问题。与常规文生视频产品不同,MOKI 深度理解视频创作者需求,实现内容和成本的双重可控,目前可以进行多种视频场景的 AI 短片创作。


吴欣鸿表示,MOKI 让视频创作前所未有的简单高效,无论你是个人还是专业团队,只要你有想法,都能轻松地将它变成短片作品。


可以看到,从诞生至今已经步入第 16 个年头的美图,已经不再只是一个纯 C 端产品。从打造爆款应用,到进入垂直行业攻坚客户痛点,美图正在慢慢探索出新的增长路径。“所谓‘流水不争先,争的是滔滔不绝’,面向垂直行业和场景,我们选择了 AI 工作流这条路,就意味着我们要在接下来的时间不断完善这个工作流。”吴欣鸿说道。

2024-06-13 00:186489

评论

发布
暂无评论

耗时3年,从小厂逆袭,坐上美团L8技术专家(面经+心得)

Java 编程 程序员 架构 面试

高防服务器大数据时代下的最佳应用途径

九河云安全

Asop 之 消息处理机制

Qunar技术沙龙

android Linux 消息队列 安卓 epoll

绝了!阿里甩出“源码阅读指南”,原来源码才是最经典的学习范例

Java 编程 架构 面试 程序人生

TCP 三次握手

W🌥

计算机网络 TCP/IP 8月日更

「独立思考」的背后是一个残酷的世界

非著名程序员

提升认知 个人提升 独立思考 8月日更

FastApi-11-模板渲染

Python研究所

FastApi 8月日更

跟我读论文丨ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别

华为云开发者联盟

BERT 弱监督 隐马尔可夫 CHMM HMM模型

高防云服务器服务器的价值会随着时间而扩展,从"成本效率"扩展到"新服务和技术"

九河云安全

Redis扩展数据类型详解

码农参上

redis 8月日更

企业数字化转型第一步,云服务器的部署以及搭建

九河云安全

图谱可视化|手把手教你采集明星人物关系并进行图谱展示

Python研究者

知识图谱 8月日更

舍弃Kong和Nginx,Apache APISIX 在趣链科技 BaaS 平台的落地实践

API7.ai 技术团队

nginx 开源 网关 kong APISIX

Karmada: 云原生多云容器编排平台

华为云原生团队

开源 容器 k8s多集群管理 多云管理平台 多云

想聊天?自己搭建个聊天机器人吧!

百度开发者中心

人工智能 最佳实践 方法论 飞桨 语言 & 开发

对象存储手把手教四 | Bucket 生命周期管理

QingStor分布式存储

对象存储 分布式存储 生命周期 数据管理

读完这份JVM高级笔记,彻底玩转Java虚拟机,面试再也不用“虚”

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

大数据集群跨多版本升级、业务0中断,只因背后有TA

华为云开发者联盟

大数据 FusionInsight

贡献者,是衡量开源项目的金指标

API7.ai 技术团队

开源 网关 APISIX

云服务器市场改变了行业市场的发展规模

九河云安全

波场DAPP钱包开发|波场DAPP特点

Geek_23f0c3

钱包系统开发 DAPP智能合约交易系统开发 波场DAPP 波场钱包

程序员投入时间和精力实现财富增长之道,这可能会伴随你程序员整个生涯(请不要连续点赞)

孙叫兽

程序员 赚钱 教程 引航计划 签约计划第二季

5招教你实现多线程场景下的线程安全

华为云开发者联盟

Java 线程 多线程 线程安全

知乎李大海对话阿里云贾扬清:透视AI应用难题与未来趋势

阿里云大数据AI技术

连续霸榜丨EasyDL到底有多强?

百度大脑

人工智能 EasyDL

使用FL studio中文版进行音乐合并和剪切

懒得勤快

数据库的简述与常用操作指南

行者AI

数据库

企业在运营过程中需要解决的五项网络安全项目

九河云安全

YYDS《剑指Offer》再续新篇,百万程序员人手一册

博文视点Broadview

7金5银,中国跳水梦之队背后的"黑科技"是什么?

百度大脑

人工智能 黑科技 跳水队

一文带你了解大厂亿级并发下高性能服务器是如何实现的!

Linux服务器开发

事件驱动 多进程 Linux服务器开发 IO多路复用 高性能服务器

美图奇想大模型进阶至V5,一口气发布6款新品喊话友商:快来抄作业_AI&大模型_高玉娴_InfoQ精选文章