网易新闻通过对用户兴趣和内容进行建模,帮助用户从海量信息中找到感兴趣的内容。其中,通过算法进行内容理解是建模的基础,也是推荐系统的基石。今年 10 月,网易传媒资深算法工程师张亚中将在QCon全球软件开发大会(上海站)2019分享多媒体内容理解技术在网易新闻中的实践,近日,我们对他进行了采访。
后移动互联网时代资讯爆炸,用户每天都在被迫接收着海量信息。如何帮助用户找到最合口味的好内容,实现千人千面精准推荐,通过精细化运营抢夺用户时长,是互联网公司当下最重要的命题之一。
目前,个性化推荐系统已成为内容产品的“标配”,它通过对用户兴趣和内容进行建模、预测,最终实现用户与内容的精准匹配。其中,通过算法进行内容理解是建模的基础,也是推荐系统的基石。
近日,我们采访了网易传媒资深算法工程师张亚中,带你了解多媒体内容理解技术在网易新闻中的应用。以下为采访实录:
张亚中:各位好,我目前任职于网易传媒推荐产品中心,部门职责是为网易新闻客户端提供个性化推荐服务,而我的工作是对新闻数据进行特征提取来支撑推荐系统和用户建模,研究内容包括 CV 和 NLP 两方面。在此之前,我曾在华为公司 2012 实验室工作,参与某天线系统的智能检测项目,负责机器学习算法开发。博士毕业于西安电子科技大学人工智能学院,在校期间的主要研究方向是视觉感知建模和图像质量评价,涉及图像处理、人类视觉系统建模和机器学习等相关知识。刚加入网易时,主要从事 CV 方面的工作,由于图文也是新闻数据的主体部分,因此同时参与 NLP 相关的业务。深度学习 End-to-End 的做法降低了各应用领域的门槛,比如 CV 和 NLP 很多基础技术都是相通的,像 Attention 机制、CNN、LSTM 等,只是处理对象不同而已,我后来的工作围绕 CV 和 NLP 同时展开。
内容理解技术在网易新闻的应用
网易新闻客户端是一个基于个性化推荐算法的综合内容平台,涵盖了图文、图集、短视频、小视频、短文本、问答、直播、专题等类型的内容形态,所有这些内容都可以归结为文本、图像和视频三种数据形式。具体来讲,对于文本内容而言,我们有偏资讯的长文本,也有偏社交性质的短文本,比如“圈子”和“讲讲”栏目,也有问答形式的“知否问答”。对于图片内容,有封面图和图文中的插图,还有专门的图集。对于视频内容,有常规的影视剧片段、新闻报道,也接入了网易公开课的优质资源。
在个性化推荐系统里面,内容理解是很重要的一环。针对各种形态的媒体数据,我们都从文本、图像和视频三个大的方面进行内容分析。学术界和工业界对文本和图像的研究起步比较早,积累了很多有效的方法,我们在处理文本和图像内容时,主要也是使用目前业界流行的 NLP 算法和 CV 算法,再结合具体的业务适当改造进行落地。视频类内容出现和流行的时间相对较晚,目前普遍还处于探索阶段。我们的主要做法是将它分解为文本和图像的问题来处理,转变成我们熟悉的问题。比如,视频的标题、简介和字幕就是文本内容的理解,对视频进行关键帧抽取,每帧图像就可以运用图像理解的算法,另外还会用到一些音频的算法和特征。我们的总体思路就是将陌生、复杂的问题转化为熟悉的问题来解决。
基于 NLP 的文本内容分析难点
NLP 主要用于文本内容分析,目前还存在不少难点。我认为文本摘要、隐晦的低俗内容识别、同义词、长文本向量化、语义歧义等等都是一些比较难解决的问题。以语义歧义为例,我们在实际业务中经常会遇到两类歧义问题。第一种是文本本身存在歧义,不同的分词方法可能会得到截然不同的意思,举个经典的例子,“南京市/长江大桥”和“南京/市长/江大桥”,从语法上来说两种分词都没错,但是意思完全不一样。另一种歧义是上下文理解造成的歧义,“苹果实在太难用了,我下次打算换小米”,联系上下文我们知道这里的苹果和小米都是指手机品牌而不是食物。
关于消岐的方法,最简单的是基于词典的消岐,词的每个含义都定义其对应的主题(如“小米”对应主题“数码”),多义词可以对应多个主题。在做内容理解时,根据上下文的主题选择合适的含义。其次是有监督消岐,人工标注一批有歧义的数据,让机器学习这些词的具体含义。另外还有无监督消岐方法,相比有监督方法效果可能略差。
网易新闻多媒体内容处理中的 CV 技术
CV 与 NLP 都是人工智能的一个分支学科,得益于大数据、强算力和深度学习新技术,CV 和 NLP 在最近几年都取得了较大的进展。就 CV 而言,我针对研究对象分别从图像、视频和三维视觉三个方面来讲具体的研究领域。
图像方面,根据关注区域为图像全局、局部或是像素级,大致可概括为图像分类、目标检测、目标识别、语义分割四大应用。其中,我们平时熟知的人脸识别、OCR 算法、场景识别都可以抽象为目标识别范畴,而人脸检测、行人检测、车牌检测可抽象为目标检测。
视频方面,有视频分类、动作识别、时序动作定位、视频片段截取等视频理解方向的技术,也有目标跟踪等算法。同时,CV 与 NLP 相结合,发展出看图说话、视频问答、视频摘要等应用。
三维视觉涉及三维重建、视觉定位、SLAM 等技术,主要应用于机器人、无人驾驶、三维测绘等领域,这部分我了解不多。
在网易新闻的多媒体数据处理中,我们大量地用到了上面所列举的 CV 技术,比如我们通过图像分类技术进行三俗、低质等图片的鉴别,通过人脸识别技术对图片或视频中的人物进行识别,采用 OCR 算法对视频中的字幕进行提取,还有基于 DNN 网络对视频进行特征提取然后进行主题聚类,也尝试通过看图说话技术对图像进行语义标签生成等。
内容理解是一个比较抽象的概念,主要思想是将非结构化的内容(比如图像、文本等)进行结构化的表示。在网易新闻的场景下,内容理解主要是通过算法提取各种各样的显式和隐式标签。我刚才已经讲过,我们目前已经用到的 CV 技术包括人脸识别、目标检测、OCR 等。但是,我们在实践中发现,目前的 CV 技术对具有明确实体目标的任务处理的比较好,比如识别出图片中有什么东西,但是对于概念型的语义标签,CV 还没有发挥出强大的作用。我个人分析原因,一方面是缺乏大量的训练样本,由于语义标签带有很大的主观意识,评价标准有时不能统一,因此很难保证训练样本的高质量,另一方面也是算法本身的局限,概念型的标签往往需要考虑到图像全局的信息,而 CNN 网络的卷积核只关注到了局部区域,这种机制不适合于用来提取抽象的标签。针对这个问题,我们目前正在探索利用多模态技术,充分利用文本、音频、视觉内容,通过信息融合来弥补视觉维度的不足。
多模态技术未来会成为内容理解的一个重要趋势和标配
在视频理解、搜索、内容推荐等领域,多模态机器学习应用十分广泛,那么对于视频理解和内容推荐领域,多模态机器学习的关注重点是什么呢?
有学者认为多模态信息的智能化理解是通向人类智能的重要方向和趋势,大家都给予了很大的期待,但是目前阶段多模态学习的研究还很不成熟,应用场景也非常单一。要分析多模态技术能在视频理解问题上起到什么作用,首先要明确一下多模态机器学习有哪些研究内容,目前学术界普遍将其分为:多模态表示学习、模态映射、多模态融合、对齐、协同学习,每个方向都有特定的适用范围。
在推荐场景下,我们做视频理解的目的是为了挖掘内容中能体现出用户兴趣点的特征,比如类别或者属性标签。为了利用多模态信息达到这个目的,首先可以想到的是将文本、视频、音频三个模态的信息进行融合,学习分类器,这里会涉及到多种特征融合方式。此外,多模态表示学习将不同模态的数据投影到同一个特征空间,可以尝试将图像或视频和属性标签投影到一个空间,在满足一定约束的条件下建立关联关系,这样类似于词向量的方式,在同一个特征空间中通过距离来衡量不同模态数据之间的语义相关度。模态映射是将一个模态的信息映射到一个另一个模态上,机器翻译中的 Seq2Seq 模型和看图说话就属于这个范畴,也可以尝试将图像直接映射到属性标签上。对于多模态对齐和协同学习,业界在视觉理解上的相关工作还不多。
下面主要讲一下多模态信息融合。
实现结果更准确、性能更优的预测是业界一直以来的追求,如今我们已经不再依靠单一模态数据,而是对多个类型的媒体内容提取特征向量,然后进行多模态信息融合,建立预测模型,多模态特征融合按照融合发生的阶段是离原始信息近还是离多模态特征近可以分为早期融合(Early Fusion),晚期融合(Late Fusion)和混合式融合(Hybrid Fusion)。
三种特征融合方式的区别主要体现在融合发生的阶段,Early、Late 或者 Hybrid 的界定是通过判断融合发生时是否已经进入深度网络结构。
Early Fusion 是对多个模态的原始数据进行融合,将不同来源的原始数据(或者是简单的手工提取特征)进行拼接,然后再级联深度网络结构,最后接上分类器或其他模型。Early Fusion 是学者对多模态融合的早期尝试,通过将各模态的底层特征进行融合学习相关性,由于只需要训练一个共同的模型,复杂度可控。但是,由于多个模态的数据来源不一致,会给拼接造成很大的难度,并且直接对原始数据进行拼接会引起较大的特征维度,对数据预处理也非常敏感。
Late Fusion 是针对单个模态分别进行决策,然后将预测后各模态的分数进行融合,通过取平均值、最大值或接一个简单的分类器来完成,可以理解为集成方法 Ensemble Methods 的一种。Late Fusion 方式的各模态单独处理,特征独立互不影响,即使某个模态信息丢失也可以正常训练,具有很强的灵活性。但是,该方式没有充分利用模态间底层特征的相关性,并且由于涉及多个模态的分别训练,也会带来较大的计算复杂度。
Hybrid Fusion 一般也叫 Intermediate Fusion,是一种逐级融合方式,在不同层级上依次对不同模态进行融合,综合了上述两种方式的优点,既利用了模态间信息的相关性,也具有一定的灵活性,目前大部分多模态融合都是采用这种方法。
我们在早期处理图文和视频内容时,采用了 Late Fusion 的方式,即分别通过文本和视觉信息提取对应的标签,最后将结果综合起来。但是,如果某个模态做的不好,做决策时也很容易影响到最终的结果,目前正在探索基于 Intermediate Fusion 的方式,结合文本、音频和视频内容,一方面能充分利用各维度的信息,另一方面也能联合起来训练分类器,通过 End-to-End 的方式将最终误差降低到最小。
多模态技术未来会成为内容理解的一个重要趋势和标配,我们将继续探索如何进行更好地落地。目前我们在处理视频信息时,还会部分依赖编辑人工打的标签信息,后期我们想完全依靠算法,基于视频的标题、简介、音频和视频直接得到视频分类等标签信息。另外,我们也将考虑通过多模态表示学习,将文本和图像/视频及用户投影到同一个特征空间,提高用户的检索匹配率。此外,我们除了应用多模态技术进行常规的内容理解任务外,还打算尝试基于协同学习,在直播、跟帖等产品上衍生出更多好玩有趣的应用。
采访嘉宾
张亚中,网易传媒资深算法工程师,现就职于网易传媒集团推荐产品中心,从事新闻数据的内容理解工作,曾任职于华为 2012 实验室。张亚中毕业于西安电子科技大学人工智能学院,获得博士学位,研究方向为视觉感知建模和图像质量评价等,在 Neurocomputing、IEEE TIP、IEEE ISCAS 等国际期刊和会议发表多篇论文。个人对深度学习、多模态学习(特别是文本和视觉)有浓厚的兴趣。
在 QCon 上海 2019 的分享中,他将介绍在新闻推荐场景下利用 NLP、CV 及多模态技术对资讯数据进行语义分析的经验和实践,点击了解详情 。
评论