美图海量短视频内容分析与检索（一）_文化 & 方法_声网_InfoQ精选文章

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

登录/注册

美图海量短视频内容分析与检索（一）

在 RTC 2018 实时互联网大会上，美图云视觉技术总监赵丽丽分享了美图在短视频领域的 AI 技术应用，内容主要包括三部分：美图短视频的业务场景，基于此业务场景所做的短视频内容分析和检索技术，以及遇到的问题与相应的解决方案。最后是平台构建过程中的一些思考。以下是演讲内容整理。

美图在短视频领域的代表产品就是 2014 年发布的短视频应用“美拍”。近几年也出现了一些竞品，比如抖音、快手。近期美拍也在内容上做了重新的调整和定位，主要是美和教程，希望用户在娱乐的过程中，也能吸取一些有营养的信息和知识。

一个视频所涉及的技术

一个视频在它的生命周期内可能涉及到许多处理技术。从 2D 和 3D 捕获开始，然后是编解码，这个阶段还涉及到传输、存储，然后是编辑与处理，比如剪辑、滤镜美化、风格转化、背景分割。随后是信息提取，包括物体识别、场景检测、人物分析、行为识别、主题提取、事件检测。以上步骤完成后，我们拿到了海量视频，还要做视频的检索。它有两部分作用，一是通过给定的视频，来检索其中是否有我们想要的内容；另一个是通过给定的视频在海量的数据库中检索出相似视频。

AI 技术在美图短视频业务中的应用主要两个层面，一是工具层面，二是内容层面。

工具层面是用 AI 技术对视频进行处理，比如对视频人物的美化，背景的替换，还有视频中人物的瘦身功能。内容层面就是标签化，比如识别视频中的物体，检测视频中的场景，还有对用户行为的一些检测。另外，最重要的是，我们拿到一个视频之后，可以利用 AI 对画质、视频内容是否违规进行检测。我们提取视频特征之后进行一些视频检索的工作，以这些工作去支撑围绕短视频的业务，包括用户画像、运营、推荐、搜索。

基于以上业务需求我们构建了一个多媒体内容分析和检索的平台，这个平台在基于内容分析算法组建基础之上分为两部分，一是多媒体内容分析平台，它负责分析视频内容特征，并进行标签化。另一个是多媒体数据检索平台。

短视频内容分析与检索的技术挑战

在拿到一个视频后，如何了解它的内容，这其实是一个多层面多维度的问题。首先最简单的，我们看到一个视频后，第一反应是它的色调、纹理、风格、画质如何。再更进一步，我们需要了解这个视频包含了哪些物体，发生的场景在哪里，有哪些人物特征，包括性别、年龄、特征、服饰，同时这个内容是否违规。另外，还有更深层次的对视频内容的识别、检测，比如学术界较为前沿的研究就是行为识别。这也是美图分析一个视频内容时候会涉及的几个维度。

基于以上业务需求，我们通过对视频、音频、图象、文本，进行处理，将其传输给多媒体内容分析平台，然后解析出以下四类信息：

基础特征：色调、纹理、风格、画质；
人物解析：性别、年龄、颜值、发型、服饰风格；
商品解析：商品识别、品牌识别；
通用内容解析：视频分类、特征提取、场景分类、角度检测、物体检测、水印检测、封面选取。

基于此，多媒体内容分析平台会提供出标签、特征、索引，以支持业务需求。

短视频数据有几个特点：

视频来源:手机拍摄；
视频形态:竖屏、人物中心化、特效和滤镜化；
视频结构:同个视频内场景固定；
信息维度:多模态信息、画面和背景音频不一致；
数据量大；
内容未知；
时效性；

在构建这个平台的过程中，我们遇到了一系列问题。总结起来有两个比较关键的问题：

一方面是如何有效定义标签体系。前面提到，标签是这个平台的一种输出形式。我们需要先确定输出哪些标签会对业务有所帮助，所以标签的定义非常重要。基于深度学习的算法训练需要有一些训练数据，训练数据中这个标签是怎么制定的，也非常重要。

另一方面是如何提高模型迭代效率。短视频数据有很强的时效性，比如说两个月前训练的模型，可能两个月后效果已然没那么好了，所以我们需要有一种机制能快速进行数据标注，替换到线上，稳定支撑业务。

评论

发布

暂无评论

YYDS《剑指Offer》再续新篇，百万程序员人手一册

博文视点Broadview

贡献者，是衡量开源项目的金指标

API7.ai 技术团队

开源网关 APISIX

【插画】一文看懂容器k8s

恒生LIGHT云社区

Docker 容器 k8s

测试开发之系统篇-Docker容器安装

禅道项目管理

Docker 测试开发

某离散制造行业龙头客户“主数据管理平台”建设分享

主数据管理

1年半经验，2本学历，Curd背景，竟给30K，我的美团Offer终于来了

Java 架构面试微服务多线程

Go 效率工具集合

潇洒哥 - 老苗

企业在运营过程中需要解决的五项网络安全项目

九河云安全

5招教你实现多线程场景下的线程安全

华为云开发者联盟

Java 线程锁多线程线程安全

高防服务器，企业成长安全控制有效性的关键工具

九河云安全

阿里（钉钉部门）远程面，三面坐上“直通车”，拿下offer没问题

公众号_愿天堂没有BUG

Java 编程程序员架构面试

直击美团“远程面试”现场，面试官竟反问：你真懂数据库事务吗？

公众号_愿天堂没有BUG

Java 编程程序员架构面试

数据中台——数据汇聚存储技术解析

数据中台数据存储

2年5个月13天，从外包到拿下阿里offer，没想到屌丝也能有今天

Java spring 架构面试微服务

读完这份JVM高级笔记，彻底玩转Java虚拟机，面试再也不用“虚”

公众号_愿天堂没有BUG

Java 编程程序员架构面试

大数据集群跨多版本升级、业务0中断，只因背后有TA

华为云开发者联盟

大数据 FusionInsight

高防服务器大数据时代下的最佳应用途径

九河云安全

当容器应用越发广泛，我们又该如何监测容器？

阿里巴巴云原生

云计算容器云原生监控中间件

闭关修炼21天，“啃完”283页pdf，我终于4面拿下字节跳动offer

公众号_愿天堂没有BUG

Java 编程程序员架构面试

耗时3年，从小厂逆袭，坐上美团L8技术专家（面经+心得）

Java 编程程序员架构面试

数据中台为什么要建标签体系，分类它不香吗？

数据中台标签体系

跨链治理之入门三问：WHO WHAT HOW

区块链治理机制

拒绝内卷！Github连夜封杀的阿里全套Spring Security高级笔记

Java 编程架构面试程序人生

数据库的简述与常用操作指南

跟我读论文丨ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别

华为云开发者联盟

BERT 弱监督隐马尔可夫 CHMM HMM模型

高防云服务器服务器的价值会随着时间而扩展，从"成本效率"扩展到"新服务和技术"

九河云安全

c++ 构造函数详解

c++ 构造函数 8月日更

FastApi-11-模板渲染

Python研究所

FastApi 8月日更

云小课 | 到底什么是区块链？

华为云开发者联盟

区块链华为云区块链的定义区块链的解决方案区块链的发展

云计算运维与传统运维工作有啥不同？需要什么资质？

云计算服务器 IT运维云计算运维

差点跳起来了！全靠这份999页Java面试宝典，我刚拿到美团offer

Java 架构面试微服务多线程