写点什么

解读优酷视频多级多模态搜索引擎的关键技术

  • 2020-06-11
  • 本文字数:1759 字

    阅读完需:约 6 分钟

解读优酷视频多级多模态搜索引擎的关键技术

优酷在文本搜索系统的基础上,不断探索视频搜索的方案,在多模态输入、多级多模态索引、跨模态检索上做了大量工作,本次分享将揭开优酷多模态图引擎的面纱。

背景

随着智能手机及移动互联网的快速发展,人们接触到的多模态数据不管是数量还是类别都在飞速增长。



优酷作为视频平台,拥有海量 OGC、UGC 视频内容,而视频内容数据是高维度多模态数据,有标题、简介、评论等文本信息,有视频帧的图像信息,有声音,也有连贯的动作视频片段。传统的基于倒排索引的搜索引擎只适合检索文本信息,对于多媒体内容检索能力不足。


为了让用户更便捷地找到多媒体内容,增加多模态搜索能力,优酷视频搜索团队设计并研发了多级多模态搜索引擎(MMS),可以提供分布式大规模多层级多模态索引能力,低延时跨模态级联检索能力,多层级检索、融合、排序能力。

系统概况


MMS 基于阿里平台的 Hippo(在线服务调度)、SAP(应用服务框架)等基础设施开发部署,主要在索引结构、检索控制、执行框架、部署等方面做了系统设计和选型。

关键技术

1 分布式多级多模态索引结构设计

每层级独立构建分布式索引,索引类型包括倒排及向量索引。以视频、帧(图片)、人脸为例,索引结构如下:



视频、帧、人脸存在层级关系;同时帧图片及人脸都有表征向量建的向量索引,支持亿级别规模,分 10 个分片,Top10 的召回率 90%以上。

2 检索调度

MMS 的复杂性在于其在线检索逻辑,即在支持层级及多模态 query 输入的基础上,如何控制跨层级、跨模态的检索。通过定义标准的跨层级和跨模态准则,根据用户的输入形成在线检索逻辑。


基本的检索流程如下图:



由 multi-call 进行多层级、多模态扩展查询逻辑,其中关键是多级、跨模态的扩展查询逻辑。


1)跨层级


跨层级的检索由用户输入的层级作为起始检索点,用户想要的输出作为终点作为扩展,系统具有自适应推理能力。


2)跨模态


跨模态检索会有两种形式的解决方案,使用不同场景,索引构建前,不同模态数据做统一表征,映射到统一空间,在线进行向量检索,此处内容表征的占主要,MMS 主要解决是在文本、向量间进行跨模态检索。

3 图化执行引擎

复杂检索逻辑及低延迟服务能力要求,需要有高效的执行框架,图化执行引擎具备最大限度并行能力。同时对算子进行抽象,可以更自由编排及复用。


MMS 选择 Suez 图化执行引擎,采用 DAG 执行引擎+业务逻辑算子的实现方式。

4 通用性算子实现

搜索逻辑中会设计 query parser、merge、sort 通用逻辑,基于图化执行引擎接口实现通用算子:


1)query parser 算子负责解析请求,查询串使用简单文本方式,相对于 pb/binary 方式,可视化的查询串更加直观,同时查询语法简单且强大。查询串支持查询文本查询,向量查询,或者同时有两者,支持高级语法,可以控制的查询参数粗排精排等;


2)merge 融合多层级 doc,补全所需要的正排、summary 信息;


3)sort 是搜索排序逻辑,排序后选取 Top N 返回;


4)result 是结果返回和处理逻辑,基于查询使用文本方式,我们希望结果也是直接可视化,所以在构建结果的时候支持了 json/xml,同时为了兼顾性能,我们也支持 protobuf 的返回格式,同时还加入 snappy/lz4 方式压缩,使返回结果集更小,传输效率更高;为了方便调试,我们加入了调试参数,可以保存聚合调试参数,输出引擎内部的调试内容。

产品应用

1 优酷智能搜索

采用 MMS 对视频、帧、元素(人物、动作)等多级内容进行索引,召回出视频解构后的信息,可以实现定帧播放,支持用户对于精准视频内容片断的需求。


2 以图搜剧

用户可以通过拍照、上传图片搜索人物及节目、相似画面的视频。输入态丰富为图像,召回系统采用 MMS,既具备传统的通过人脸识别后用人名召回节目,又可直接通过图片向量进行召回。


总结 &展望

多媒体信息不断丰富,直播、小视频等相关应用增长迅猛,5G 移动通信技术的进一步普及,多媒体信息的生产、传播将会持续爆发式增长。人工智能技术日臻成熟,对于多模态内容理解、表征会进一步加强。多模态的人机交互体现会渗透到生活、生产各个环节。多级多模态的检索能力是必须要面临的核心问题。


优酷的多级多模态搜索引擎(MMS)提供了低延迟的跨模态、跨层级搜索能力,支持大规模多模态的索引。在视频分发、视频创作中都有着十分关键的应用场景。MMS 技术在更多的智能交互场景也将发挥更广泛的应用场景。


作者介绍:阿里文娱开发专家 崇懿,阿里文娱开发专家 慧善


2020-06-11 09:003139

评论

发布
暂无评论
发现更多内容

尤大:不会说 Rap 的前端不是好前端!写一个 v-rap 指令!

泰罗凹凸曼

JavaScript 有趣的技术知识

如何针对多租户 SaaS 使用案例扩展机器学习推理

亚马逊云科技 (Amazon Web Services)

Amazon SageMaker

Bitmap、RoaringBitmap原理分析

京东科技开发者

数据结构 算法 存储 BitMap 企业号 3 月 PK 榜

视频回放编辑工具:Mitti 激活版

真大的脸盆

Mac 视频处理 Mac 软件 视频编辑 视频回放工具

2万字60道MySQL经典面试题总结(附答案)

程序员大彬

MySQL 数据库 java面试

窄带高清画质增强之生成式细节修复

阿里云视频云

云计算 窄带高清

QPSK/DQPSK 调制解调系统仿真

timerring

通信系统仿真

江苏银行与易观千帆达成合作,打造金融服务“新样本”

易观分析

金融 银行 经济

GtiHub上点赞已破百万!阿里内部并发编程四套全彩手册开源

架构师之道

Java 程序员 面试

数据库+chatGPT3.5 优化、索引、注释、SQL就是一句话的事了

非喵鱼

Java 数据库 openai ChatGPT ChatGPT4

Ableton Live 11 Suite 音乐制作软件v11.2.11中文版安装教程

Rose

音乐制作 Ableton Live 11 Suite Ableton Live

循序渐进讲解负载均衡vivoGateway(VGW)

vivo互联网技术

负载均衡 网关

内部开发者平台与门户:二者有何关联?

SEAL安全

企业号 3 月 PK 榜 内部开发者平台 内部开发门户

深入浅出RPC服务 | 不同层的网络协议

京东科技开发者

网络协议 RPC调用 应用层 jsf 企业号 3 月 PK 榜

华大北斗上榜“深圳知名品牌”

江湖老铁

如何将「知识」体系化管理

Java 架构 职场 知识管理

这5个有趣、强大的AIGC,你值得拥有

没有用户名丶

linux环境arm64架构编译iotDB

小黄鱼

Thrift IoTDB arm64

Movist Pro for mac播放流畅、观影愉悦!

Rose

苹果电脑 视频播放器 Movist Pro Mac Movist Pro 中文版

Microsoft 365 for Mac(原Office 365) v16.71正式版

理理

Office 365 office许可证

SecureCRT for Mac(强大的终端SSH工具)附许可证 v9.3.2正式版

理理

SSH工具 SecureCRT下载 SecureCRT破解版 SecureCRT许可证

MobPush Android 厂商通道回执配置指南

MobTech袤博科技

活动回顾|龙蜥社区云原生 SIG 首届 MeetUp 圆满落幕 持续打造面向云时代的竞争力

OpenAnolis小助手

开源 云原生 Meetup 龙蜥社区 sig

Error:SyntaxError:JSON Parse error:Unexpected EOF 解决办法

Rose

adobe 安装报错

Acrobat DC弹窗:“未找到IMSlib,Acrobat服务将无法正常工作”,如何解决?

Rose

Acrobat DC 服务将无法正常工作

pd虚拟机专用windows系统镜像(m1/intel)

理理

pd 18 pd虚拟机 Win11系统下载

周杰伦在唱什么?数据可视化告诉你!

博文视点Broadview

压测模式该怎么选?RunnerGo五大压测模式详解

爱研究代码的极客人

Jmeter 性能测试 自动化测试 压力测试 LoadRunner

Redis链表底层实现以及生产实战

做梦都在改BUG

Java redis 缓存 源码 链表

IntelliJ IDEA 2022 for Mac(Java开发工具) v2022.3.3汉化版

理理

IntelliJ IDEA IntelliJ IDEA激活码 IntelliJ IDEA2022

MacDroid mac版:实现安卓手机数据传输

理理

android Mac 数据传输 MacDroid for mac

解读优酷视频多级多模态搜索引擎的关键技术_语言 & 开发_阿里巴巴文娱技术_InfoQ精选文章