在大数据和机器学习快速发展的背景下,互联网广告技术得到了进一步的演进。用户,可以说是每一款互联网产品的重要命脉,但是广告,也是一款产品能够盈利的重要举措之一。这两者看似是敌对的关系,并且现在用户每天在互联网上会接触到太多无用的信息,如果按照以前的方式大面积投放广告,不仅会影响到用户的体验感受,投放效果一定也会很差。那么如何在提高广告转化率的同时不干扰到用户的体验,实现产品的可持续发展已经成为了广告投放的主要问题。
对此,InfoQ 采访到了爱奇艺智能广告部算法总监刘国辉,从信息流广告的角度出发,为大家详细阐述信息流广告实践背后的技术能力。此外,刘国辉老师还将在 QCon 广州的【广告系统与推荐算法】专场进行【爱奇艺信息流广告的排序算法演进】的相关分享,欢迎大家届时前来收听。
“内容找人”的信息流
信息流作为一种瀑布式、用户可滚动浏览的内容展现形式,当前已广泛应用于各大视频网站和移动 App。不同于传统的“人找内容”,信息流依赖精准的个性化推荐技术,将海量内容中能够最满足用户偏好的推送给用户,从而实现了“内容找人”。通过内容个性化,信息流极大降低了用户获取内容的成本,提升了用户在 App 内的使用时长。随着用户使用时长的提升,也随之产生了大量的广告变现机会。
信息流广告具有更原生、更精准、易传播等特点,能自然的融合于平台内容。经过近几年的高速发展,信息流广告已经在整个广告市场中占据了重要位置,逐渐成为移动广告营销的新引擎。
对于视频网站而言,传统的广告收入主要来源于播放器框内的贴片广告。贴片广告用户关注度高,信息传递丰富具体,主要用来投放追求树立长期品牌形象的品牌广告。近几年受经济大环境影响,品牌广告整体市场规模增速放缓,同时视频会员模式的快速发展也进一步挤占了贴片广告的库存空间。信息流广告融合于内容之间,具有展现形式原生、对用户干扰低、投放精准等优势,非常适合投放追求直接转化效果的效果广告,这种广告形式是品牌贴片广告的有力补充。爱奇艺当前正在大力发展信息流广告业务,信息流广告是继品牌贴片广告之后的又一重要广告收入增长点。
用户画像的精准刻画是实现信息流广告的重要因素
大家想必都很清楚,信息流广告的核心是对精准人群推送精准的广告内容,这其中用户画像的核心是数据。数据体量越大,用户画像的精准度就越高,当前爱奇艺拥有 4 亿+的月活用户,积累了包括观影、会员、搜索、游戏、文学等海量用户行为数据。
构建品类丰富的精准用户画像,光有数据还不行,还要对这些数据进行分析以及学习,具体分为以下四步:
1.内容标签的生产与知识图谱的构建
以视频内容为例,每部视频都有大量的中文文本描述,标题、简介、评论、弹幕等。通过 NLP 技术可以对这些中文进行分词处理,提取中心词作为视频标签。将视频标签用做特征,采用聚类的方法可以自动为每部视频生产不同的主题,这些主题也可以直接当做某种特殊类型的视频标签使用。
除了对视频文本打标签之外,还可以使用深度学习模型对视频内容进行理解,采用分类的方法为视频划分不同的种类,如搞笑、游戏、母婴等。通过上述方法,每部视频都被自动打上了内容标签,可以将这些标签看作视频的属性信息。
此外不同的视频之间也存在很多联系,如同一导演拍摄、拥有相同的主演等。通过构建相应的知识图谱,可以将视频间的关系与属性更好的组织起来,并作为基础数据服务提供给后续的标签挖掘和精准推荐使用。有了对视频内容的精准刻画,结合用户行为数据,就能够更准确的理解用户行为背后的真实意图。
2.用户长期、短期兴趣的划分
但是反复推荐给用户类似的同质内容,很容易引起用户的审美疲劳,因此就要将用户兴趣划分为长期和短期两种。正确识别用户的长、短期兴趣对推荐系统非常重要。要解决这个问题需要从源头出发,在数据采集环节就进行划分,分解为离线数据流和实时数据流。离线数据流重点关注数据的覆盖度,尽可能多的覆盖用户不同渠道的行为数据,并从中挖掘出相对稳定的用户兴趣。实时数据流重点关注数据的时效性,通过热点事件的挖掘捕捉用户短期兴趣的变化。
3.用户标签挖掘
在有效处理内容信息与用户行为后,最后就是要通过用户标签挖掘来生成用户画像。用户标签的挖掘主要有两种方式,分别为统计模型和预测模型。
统计模型主要用来挖掘用户相对明确的兴趣,通过统计某一时间窗口内不同行为所发生的次数来生成最终的用户标签。为了获得更加合理的统计结果,额外引入了时间衰减函数来提高最近日期数据的权重,同时对不同类型的用户行为进行加权处理。
预测模型主要用来挖掘用户的潜在兴趣,按预测目标的不同可以分别使用分类模型或者回归模型。提升预测模型准确性,主要依赖充足的标记样本进行模型训练,实际应用过程中一般会采用主动学习的方法来减少人工标注的代价。
4.A/B 实验
用户标签在上线前会经过严格的线上 A/B 实验,只有业务指标验证通过的标签才会最终上线使用,这样可以进一步保证推荐使用的用户标签质量。
智能广告算法引擎所面临的挑战
刘国辉老师坦言,在构建智能广告算法引擎的过程中,挑战和困难都非常大,如何解决用户和广告的相关性问题,实现广告投放的综合收益最大化面临诸多挑战,具体的:
1.来自算法和工程的挑战
一方面需要精准的算法模型来提高预估的准确性,另一方面也需要强大的工程架构来提高服务的时效性 &稳定性。
2.广告请求到最终广告展示之间的效率提升
从广告请求到最终广告展示需要经过定向召回->索引截断->粗排->精排等诸多环节,整个链路可以看作一个漏斗模型,只有不断提高各个环节的吞吐量和准确率,才能达到最终展示结果收益最大化的效果。
只有对每个环节都构建相应的业务指标,实时自动监控指标的变化,及时发现和处理线上问题,同时通过实验不断优化模型,才能在服务性能和准确性方面取得一个平衡。
3.关于 OCPX 投放模式自我探索
智能化是未来广告投放的趋势,过去很多需要广告主自己完成的工作现在都可以移交给系统自动完成。以当下重点推广的 OCPX 投放模式为例,对广告主来讲,广告投放过程的主要痛点在于出价难、冲量难、转化成本不可控。
OCPX 采用精准的点击率和转化率预估算法,可帮助广告主在获取更多优质流量的同时提高转化率。系统会在广告主出价的基础上,基于海量数据和智能算法动态调整出价,进而优化广告主排序,帮助广告主获得最合适的流量,从而降低转化成本。OCPX 投放模式对算法的准确性和时效性要求都非常高,为了提高模型时效性,可以基于 Spark Streaming & FTRL 进行模型在线学习;为了提升模型的准确性,可以采用迁移学习的方法,来解决广告转化路径靠后的转化类型样本稀疏的问题。
巴黎圣母院失火=恐怖袭击?
前段时间巴黎圣母院起火,YouTube 的算法却将这个事件匹配为恐怖袭击,一时引起轩然大波。同为视频播放网站,爱奇艺是否也会有这样的问题呢?
刘国辉老师认为这样的错误在所难免,任何算法都很难做到 100%准确,在广告场景也会有类似问题。广告点击率是最终排序的重要因子,一些诱导性广告,如红包、返现、美女等,会产生大量的用户点击。如果模型训练使用了这部分样本数据,就会把相关广告错误判断为高价值广告,从而提高推送概率引起用户投诉。
为了解决这个问题,爱奇艺构建了【创意质量分模型】,通过模型来输出创意的评级分数,分数越低质量越差。创意质量分模型主要包括两部分,一部分基于图像内容理解进行图像分类,如通过 CNN ResNet-50 网络对图像进行分类,识别图像内是否出现诱导性红包,通过 CTPN 模型进行文字检测识别图像内是否出现文字密集的情况等;另一部分基于用户负反馈数据采用统计的方法判断广告是否属于低质广告。
每个子模型都能计算获得一个质量得分,最后再采用模型融合的方式来生成创意的最终评级分数。有了创意质量分后,通过在排序算法中引入质量分因子,就能起到自动打压低质广告的效果。
尾 声
大数据和机器学习技术的快速发展,为信息流广告的广泛应用提供了极大的技术支持。在未来的业务发展过程中,大家的主要工作还是要结合具体的业务场景不断打磨模型,提升算法的精准度。当前 AI 技术已经渗透到广告投放的各个环节,从素材生产、智能投放到效果分析,AI 正在不断提升广告投放的效率和效果。
嘉宾介绍
刘国辉,爱奇艺智能广告部算法总监,硕士毕业于复旦大学。2015 年加入爱奇艺,负责广告算法团队的技术管理和研发工作,带领团队运用 AI 技术提升流量变现效率和效果,主导并搭建了爱奇艺智能广告算法引擎。
5 月 25-28 日,QCon 全球软件开发大会广州站,刘国辉老师将会现场进行【爱奇艺信息流广告的排序算法演进】相关内容的分享,通过简要介绍爱奇艺信息流广告的排序算法演进过程,为现场观众讲解如何运用个性化推荐技术打造智能广告算法引擎。
评论