InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

快手 Y-tech 万鹏飞:短视频 UGC 智能创作中的 CV 技术和发展趋势

快手科技

  • 2021-06-22
  • 本文字数:1986 字

    阅读完需:约 7 分钟

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

近日,2021全球人工智能技术大会在杭州召开。本次大会汇集来自世界各地的人工智能领域专家,共同为人工智能的未来发展建言献策。在 6 月 5 日召开的计算机视觉专题论坛上,快手 Y-tech 部门 AI 技术平台负责人万鹏飞受邀发表了题为《短视频 UGC 智能创作中的计算机视觉技术》的演讲,从产业的角度分享了计算机视觉技术在短视频智能创作方向的应用和发展趋势。

 


快手深耕短视频内容创作生态,UGC 智能创作降本增效


作为国民短视频社区,快手用户日均使用时长 99.3 分钟,整体日活达 3.792 亿。在庞大的用户与流量基础上,快手形成了富有活力的内容创作生态,平台内有 300 亿+原创视频库存,每月新增创作者 1000w+。其中大部分内容是广大普通用户创作的,即 UGC(User Generated Content)。据万鹏飞介绍,UGC 强调人机协同,内容创作的主体是人,技术辅助人做创作;智能创作则强调技术有一定的自动化能力,可在内容创作中起到“降本增效”的作用。对应到实际产品中,快手系产品的 UGC 智能创作主要涵盖了三大类功能:人像美化功能、影音特效功能和独立创作工具。


人像美化功能:快手的人像美化功能包括美颜、美型、美体、美妆、滤镜、画质增强等。除经典的基于图形图像处理的技术方案外,快手将基于深度学习的 CV 技术融入到了人像美化中,大幅提升了用户体验。例如用神经网络来提高人像照片的画质或让照片中的人更年轻,以及通过环境光照估计使美妆效果在实际场景中更加自然等。

 


影音特效功能:除了常见的各种人脸 AR 装饰外,特效功能的含义非常广泛,包括但不限于各种玩法道具、贴纸动效、视频模板和小游戏等。例如万物 AR 玩法是用摄像头扫描通用物体并触发效果(如让湿纸巾跳舞),活照片玩法可以使一张图按照特定方式动起来(如前阵子很火的“蚂蚁呀嘿”),这些都是特效技术的范围。



独立创作工具:快手此前已经推出“快影”和“一甜相机”等多款受欢迎的工具产品帮助用户进行视频和图像的专业创作,最近还刚发布了一款主打高清修图的“原片”app。除这些产品外,此次大会上万鹏飞重点介绍了另外两个比较特别的独立创作工具。


第一个是虚拟偶像创建和开播工具—A 站面捕助手,用户能以很低的成本创造自己的虚拟形象,并让虚拟形象跟着自己动起来,进行直播互动和内容生产。大大降低了普通人或商家拥有和运营属于自己的虚拟偶像的门槛。



第二个是快手特效开放平台—必扬特效平台,在这个平台上,人们可以设计和创造自己的特效玩法,发布到快手让更多人体验,并可获得平台激励。通过这个方式,短视频平台、特效创作者、特效消费者形成了一个互利共赢的生态。


CV 技术助力快手短视频智能创作,五大变化传达技术发展趋势

 

短视频 UGC 智能创作各种功能的实现大多依托于(但不仅限于)计算机视觉技术,即 CV 技术。在演讲中,万鹏飞从产业应用的角度,按照人体感知与重建技术、环境感知与重建技术、像素级语义分析、生成式技术和多模态技术这五个技术方向进行了介绍。

 

人体/环境感知与重建技术:感知和重建是智能创作的重要前提,也是 CV 领域的重要课题。主要包括点/框检测、物体/场景识别、动作捕捉、VO/SLAM、3D 重建等,这些基础 CV 技术有力保障了快手用户的创作体验。




像素级语义分析:这方面用途最广的是分割技术,俗称抠图。除了比较常见的人像分割外,万鹏飞展示了一个快手实时天空分割的案例,不论是窗户的遮挡,还是建筑与天空的连接处,都分割得非常细腻。除各种分割抠图外,有时候也需要对画面中的其他语义信息进行分析,如深度和法线等。



生成式技术:以生成判别网络(GAN)为代表的生成式技术是近几年非常火热的课题。生成式技术除了可以做各种好玩的特效外(如“童话脸”特效),其应用已深入到智能内容创作的方方面面。例如传统的染发效果是在头发上叠加一层颜色,效果很假。用生成式技术染出来的头发,则更像是现实中实际染上去的效果。



多模态技术:现实世界中人们感受和表达信息大多是多模态的。一个短视频,不只有画面,还有声音、文本信息等,因此 UGC 智能创作也应该对多模态信息进行联合建模。在智能创作方面,多模态技术的落地场景有很多,包括为短视频配乐、配文案,图文转视频,以及文字生成画面等。


以上这些技术在实际落地中会面临很多挑战,包括如何保证算法在各种不同的机型上都能发挥最好的算法效果且保证运行流畅。如何保证用户在各种使用场景中能保证算法的鲁棒性等。这些都是 CV 技术在实际业务落地时必须考虑和解决的问题。



在演讲的最后,万鹏飞展望了短视频UGC智能创作技术未来发展的五大趋势:“首先是从单模态到多模态,利用多模态信息进行智能创作;第二,生成模型会越来越强大。生成的内容更加逼真,且生成的过程更加稳定可控;第三,内容形态走向虚实融合。虚拟与现实的边界变得模糊,混合现实技术很有前景;第四,从辅助制作到辅助创意,技术需要帮助人们解决内容创作中的创意瓶颈问题;最后,计算模式将走向云边端联合计算,强大的计算能力将为用户解锁更多更智能的创作体验”。

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2021-06-22 15:272073
用户头像

发布了 34 篇内容, 共 13.7 次阅读, 收获喜欢 36 次。

关注

评论

发布
暂无评论
发现更多内容

leetcode 64. Minimum Path Sum 最小路径和(中等)

okokabcd

LeetCode 动态规划 数据结构与算法

有爱无碍,科技为他们点亮漫天星光

脑极体

稳了github star突破9k即时通讯IM开源项目OpenIM版本发布-生产环境重点关注

Geek_1ef48b

JavaScript基础语法知识遨游记

未见花闻

6月月更

InfoQ 极客传媒 15 周年庆征文|Vim 常用快捷键

耳东@Erdong

vim 运维 快捷键 6月月更 InfoQ极客传媒15周年庆

HashSet与WeakHashMap的理解

源字节1号

字节Pico走“小”路

科技新知

Java Core 「11」AQS-AbstractQueuedSynchronizer

Samson

学习笔记 Java core 6月月更

linux常用命令

乌龟哥哥

6月月更

统一返回结果

卢卡多多

返回值 6月月更

uni-app进阶之模版语法与数据绑定【day7】

恒山其若陋兮

6月月更

作为神经搜索生态的开创者,Jina AI 在做什么?

Jina AI

Python 深度学习 开源 云原生 搜索

A16Z : Web3生态全景概览

Dream

Web3.0

市场冷空气来袭,SeekTiger如何逆流而上?

股市老人

硬核干货:6000字 30张图,带你彻底搞懂BGP动态路由!

wljslmz

BGP 网络技术 动态路由 6月月更

微服务稳定性保障

阿泽🧸

微服务 6月月更

BOM

Jason199

js BOM 6月月更

GNU/Linux知识库(1)- 历史和演变

冯亮

Linux DevOps GNU

【愚公系列】2022年06月 通用职责分配原则(六)-多态原则

愚公搬代码

6月月更

读书笔记之:如何有效阅读

甜甜的白桃

读书笔记 读书 笔记 6月月更

C#入门系列(十九) -- 作用域、生命期和析构函数

陈言必行

C# 6月月更

市场冷空气来袭,SeekTiger如何逆流而上?

鳄鱼视界

市场冷空气来袭,SeekTiger如何逆流而上?

威廉META

如何利用 RPA 实现自动化获客?

程序员泥瓦匠

RPA

Docker 实用技巧三

Nick

Docker 容器 实用技巧 6月月更 实操

Apipost=Postman+Swagger+Mock+流程测试?

Xd

Java 后端 接口测试

JVM调优简要思想及简单案例-对象的回收与保留

zarmnosaj

6月月更

【Python技能树共建】with...as... 实战

梦想橡皮擦

Python 6月月更

【Spring 学习笔记(十三)】Spring AOP 五大通知类型

倔强的牛角

Java spring spring aop 6月月更

力扣每日一练之数组上篇Day1

京与旧铺

6月月更

学生管理系统的考试试卷存储方案

爱晒太阳的大白

  • 扫码添加小助手
    领取最新资料包
快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势_文化 & 方法_InfoQ精选文章