粗制滥造的抠图影视剧画面简直不忍直视,真正的抠图技术应该是什么样的?
影视剧抠图乱象频出,AI 抠图以假乱真
这几年,影视剧抠图乱象频出,粗糙、简陋的抠像操作所呈现出的“一毛特效”简直不忍直视,硬生生碾压了“五毛特效”。
抠图过的画面具有很多典型的“硬伤”:人像比例失调、表情僵硬,人物与背景结合生硬,背景虚化等,令人打眼一看上去就觉得十分违和,严重影响了用户的观看体验。
阿里巴巴资深算法专家任海兵在接受 InfoQ 采访时表示,现在很多影视剧抠图技术“太假”、特效效果不好,一方面因为拍摄经验不足,无法和抠图技术很好的配合,另一方面可能是因为后期制作费用不足,导致后期没有人工仔细校验修改。
其实,抠图是影视剧后期使用非常普遍的一种技术,例如在好莱坞的电影拍摄过程中特效制作基本都会使用绿幕拍摄,然后通过后期抠图合成技术。
不过这项技术大多数时候都用不上。制片人何静曾表示,这类技术使用的比例一般控制在 5%至 10%,多用在无法正常拍摄或者无法实现以及不能呈现最佳效果的情况下。
但现在因为制作成本,演员演技、档期冲突等因素,大面积抠图的影视剧越来越多,且质量堪忧,给观众一种抠图技术很不靠谱的感觉,这伤害了技术本身,也让技术污名化。
不能否认的是,随着抠图技术更加成熟以及影视剧、视频制作的需要,智能抠图将是大势所驱。如何让抠图更加逼真,效果更加自然,AI 将在其中发挥越来越关键的作用。现在已有很多修图软件应用上了 AI,随着视频 AI 算法的发展,视频智能抠图也开始新兴起来。
此外,长期来看,智能抠图也将是节省成本、提高效率和精度的最优选择。
相对于手工 PS 来说,智能抠图优势突出,一方面,可以大幅度提高抠图效率。以图像抠图为例,一个复杂的人物手工抠图需要手工几分钟时间;而利用交互式智能抠图算法,几秒钟就可以完成。智能抠图还可以达到“毛发毕现”的效果,凸显毛发部分的分割精度,这是人手工几乎无法完成的。
传统的图像抠图算法都是基于非深度学习的算法,例如 KNN matting,Closed-Form matting,Bayesian matting 等。AI 抠图是利用深度学习算法从图像和视频中把用户感兴趣的物体扣出来,可以把抠出来的物体放到新的背景上,合成新的图片和视频。
任海兵表示,目前流行的 AI 抠图算法都是基于深度学习的算法,相对于传统算法,AI 抠图算法有两个优点:一是抠图精度更高,二是可以在 GPU 上并行计算,速度更快。
阿里文娱智能视频抠图技术
智能抠图最直接用到的 AI 技术是图像抠图算法(image matting)。但为了得到更好的抠图效果,目前很多抠图技术都采用多种算法结合的解决方案,还包括显著性物体检测、图像语义分割和实例分割等算法。
相比图像抠图,视频抠图算法最大难点是时序一致性。“对于视频抠图结果,一帧帧看结果都很不错,但是连在一起,边缘地区就会有抖动,抠图时序的一致性不够好”,任海兵说。
视频智能抠图技术就是在图像抠图技术基础之上,增加视频物体分割等算法来保证视频抠图结果的时序一致性,达到“抖动小,更平滑”的分割效果。
先来感受一下阿里的视频抠图技术:
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
视频 1
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
视频 2
抠图后,视频中的人神情、动作非常生动、自然,人物的头发丝纤细可见,视频主体人物和背景的衔接流畅,能够准确区分,整个画面很完整,傻傻分不清哪一个是抠图后的,足以以假乱真了。如果对比上面那些粗糙的抠图画面,效果简直“吊打”了。
值得一提的是,该视频的前景和背景颜色比较接近,在这样的情况下,要保证抠图对象的完整性和局部细节的精确度,所需的技术难度较高,尤其对于头发丝、衣服褶皱等抠图精细程度高的部分。
任海兵表示,视频人物抠图,从人物分割来看,算法模型需要学习人物的先验知识,在前景/背景颜色比较接近和复杂纹理的情况下,人的先验知识可以起到重要的作用,能保证抠图对象的完整性。
抠图对象的整体性主要依赖图像高层语义特征,局部细节的精确性侧重图像低层局部特征。实际系统中二阶段的抠图方法比 E2E 的抠图算法能够达到更高的精度。二阶段的抠图方法中,第一阶段是硬分割阶段;第二阶段是软分割,首先要保证硬分割结果中对象的整体性和边缘的准确性,然后在准确性的基础上利用软算法达到“毛发毕现”的效果。因此,在第一阶段中就需要确保对象的整体性和边缘的准确性。
“为了既保证对象的整体性,又能得到精确的局部细节,从算法角度,高层特征和低层特征需要很好的融合在一起",任海兵介绍。
目前很多图像分割网络,例如 HRnet 在这方面都处理得比较好。任海兵团队参考 HRnet、Deeplab V3+等语义分割网络提出了对应解决方案,该方案目前在最重要的语义分割数据集 Cityscape Test 数据集上达到了 84.3%的正确率。
智能视频抠图商用落地
目前,阿里文娱所采用的视频抠图解决方案均是针对文娱业务的应用场景定制化研发,其目的是从影视综剧中抠出人物区域,进行视频内容的二次生成和创作。
“我们会根据人物抠图的特点,设计一些模块,例如人体分割的自动评估模块等”,任海兵表示,“我们采用的抠图原始数据基本上都是来自优酷的影视综剧,这是我们业务的场景,我们尤其看重古装人物的分割,因为古装人物复杂的头饰、服饰、武器等都是分割算法的难点”。目前,阿里已经建立了业界最大的视频人物分割数据集,并将在今年阿里文娱的 MEIDA AI 算法大赛“高精度视频人物分割赛道”中部分发布。
阿里文娱主要采用 AI 与人工结合的抠图模式,利用 AI 算法为人工赋能,大规模提高人工效能。例如在优酷商业化广告项目中,全自动的视频人物抠图后接入人工审核和交互式分割链路,也就是说,如果全自动的视频人物抠图的结果不合格,后续将由人工进行修补。
从算法的角度讲,人物抠图和物体抠图并没有本质的区别,算法原理、网络框架基本上都是一样的,只是数据不相同。因为视频中人是观众最感兴趣的对象,所以阿里文娱更侧重于影视综剧中的人像抠图。针对领域,任海兵团队提出了视频/图像人物无监督和交互式抠图算法。目前,阿里的算法已经具备商用落地的能力,正逐步应用于多个项目。
最近几年,智能抠图应用开始在工业领域逐步落地,在商品海报制作、视频弹幕等场景运用,上述场景属于简单场景,图像背景比较简单或者对分割精度要求不高,主要采用人工+AI 方式抠图。
而影视综剧视频制作中给人物换背景等复杂场景,则要求更高的抠图精度和更高的平滑性。这对硬分割和软分割技术都提出了很高的要求。
为了达到软分割高度的平滑性,视频软分割(video matting)算法是非常重要的。“但在 video matting 领域,最近几年学术界没有明显的进展。但我相信,随着工业界需求越来越多,越来越多的研究人员会投身 video matting 领域,推动这个领域的发展”,任海兵表示。
他坦言,目前特别智能的抠图算法,特别是视频抠图算法,还处于实验室研究阶段。算法特别复杂,需要大量的计算资源,且算法本身也不是特别成熟,在通用场景和复杂场景下达不到用户的预期,因此只在某些特定的领域内针对具体场景进行优化,达到小范围的商用。市面上,商用软件中的抠图算法,需要处理更加通用的场景,加之受计算资源限制,无法使用特别复杂的算法,还达不到特别的智能。
不过,最近两年,深度学习在像素级分类任务上取得了较大的进展。智能抠图相关的算法,例如图像物体分割、视频物体分割、Image Matting 等也取得了较大的进步。视频抠图在实现高度智能、大规模商用方面的潜力值得期待。
采访嘉宾介绍
任海兵,计算机视觉专题专家阿里巴巴资深算法专家任海兵,从事视频理解算法研究。拥有 20 多年计算机视觉从业经历。在加入阿里之前,任海兵在三星中国技术院工作 了 11 年,先后担任计算机视觉和医疗图像算法团队负责人;在英特尔中国研究院工作了 4 年,从事机器人视觉感知研究工作。
评论