海报,是电影的第二张脸。
在传媒影视行业,电影、电视剧的宣发涉及大量海报的使用。相比文字宣传,图片海报表意更直观,也更易于传播,其中的艺术字体更是点睛之处,在所有造势海报中都固定出现。
为了制作影视作品相关的广告物料,传媒公司通常需要让经验丰富的设计师手动抠取片方海报中的艺术字体元素,这种做法既浪费人力,效率也十分低下。同时,目前业内已有的商业抠图工具大多关注人物,还没有专门针对艺术字体的可落地解决方案。
抠图前(上)和抠图后(下)
面向艺术字体提取的影像去背
为了高效提取艺术字体,才云 Cabernet 团队采取的方法是利用深度学习实现影像去背(Image Matting)。
影像去背即给定一幅图像,将需要的部分(前景)从背景中抠取出来。当前这种技术已经在多个领域有实际应用,比如手机的背景虚化功能就是利用算法抠除主体,对背景进行单独的虚化处理;特效电影采用绿幕拍摄,也是为了后期利用影像去背将人物放在新制作的背景上。
相比已经非常成熟的人物抠取,艺术字体影像去背的主要难点还是在于轮廓界定和数据量。
影像去背的第一步是分离艺术字体和海报背景。工程师需要计算艺术字体中每个像素的透明度,以此获得阿法遮罩,然后利用阿法遮罩实现前后景分离。但目前计算阿法遮罩还没有纯数学上的解决办法,仍依赖 Trimap 辅助。
来源:NVIDIA 大会
基于 Caicloud Clever 定制解决方案
综合以上难点,整个艺术字体提取任务其实可以被简单拆分成两部分:自动化前后景分割和数据生成。
才云 Cabernet 团队参考了近两年学界、工业界在这些问题上的进展,最后选取了一种在某电商平台已实现广泛应用的新型成果。借助 Caicloud Clever 丰富的深度学习框架、强大的硬件资源管理能力以及高效的模型开发能力,团队最后成功复现了该方案,且完美适应传媒行业的需求。
自动化前后景分割
上图是实现高精度前后景分割的流程示意图。简而言之,它先通过原图生成 Trimap,再通过原图和 Trimap 捕捉细节信息并生成初步的阿法遮罩,最后通过加权融合进一步细化阿法遮罩,实现精准分割。
整个流程的第一部分是一个经典的语义分割问题。输入原图后,模型输出的是图中每个像素点所属的类别,通常是 N 色图,N 就是图中包含的物体类别的数量(在我们的例子中是 Trimap:前景、背景、不确定)。如下图所示:
来源:公开数据集
数据生成
如前文所述,因为真实数据有限,企业在训练模型时往往需要依赖人工抠取的图像集,杯水车薪,难以保障模型的最终性能。
在原有解决方案的基础上,Cabernet 团队针对艺术字体去背给出了一种数据增强方法,即爬取可使用的背景、纹理素材及多样的字体库,并通过给定流程生成尽可能逼真的图像样本。
通过这个数据合成流程,Cabernet 团队只用了 100 多张原始图片就完成了训练,且最终模型性能完全满足企业在生产环境中的应用需要。
未来:进一步优化
以下是模型输出的部分示例:
正如一开始所说的,才云 Cabernet 团队的目标是开发出一个具有落地应用意义的企业级深度学习解决方案。
事实证明,虽然企业对 AI 技术的应用态度近几年已发生转变,但从客户成功的角度看,他们想要的并不只是一种替换旧有工具的新型自动化工具,他们更希望借助第三方提供的成熟 AI 平台能力,让自己具备 AI 开发能力,去自主规划、实现商业模式的创新和业务转型。而这,正是他们选择 Caicloud Clever AI 中台的原因。
目前,上述解决方案已经可以满足传媒行业的基本需求,但受限于技术本身的成熟度,模型在处理复杂光泽纹理时,生成效果还有所欠缺。为了精益求精,未来,Cabernet 团队将进一步优化模型性能,并开发适用于更多场景的解决方案。
本文转载自才云 Caicloud 公众号。
原文链接:https://mp.weixin.qq.com/s/biG0JAPf9KhsSlj0I7ZsRQ
评论