写点什么

让用户喜欢上广告:信息流技术背后的爱奇艺风格

  • 2019-05-08
  • 本文字数:3501 字

    阅读完需:约 11 分钟

让用户喜欢上广告:信息流技术背后的爱奇艺风格

在大数据和机器学习快速发展的背景下,互联网广告技术得到了进一步的演进。用户,可以说是每一款互联网产品的重要命脉,但是广告,也是一款产品能够盈利的重要举措之一。这两者看似是敌对的关系,并且现在用户每天在互联网上会接触到太多无用的信息,如果按照以前的方式大面积投放广告,不仅会影响到用户的体验感受,投放效果一定也会很差。那么如何在提高广告转化率的同时不干扰到用户的体验,实现产品的可持续发展已经成为了广告投放的主要问题。


对此,InfoQ 采访到了爱奇艺智能广告部算法总监刘国辉,从信息流广告的角度出发,为大家详细阐述信息流广告实践背后的技术能力。此外,刘国辉老师还将在 QCon 广州的【广告系统与推荐算法】专场进行【爱奇艺信息流广告的排序算法演进】的相关分享,欢迎大家届时前来收听。


“内容找人”的信息流

信息流作为一种瀑布式、用户可滚动浏览的内容展现形式,当前已广泛应用于各大视频网站和移动 App。不同于传统的“人找内容”,信息流依赖精准的个性化推荐技术,将海量内容中能够最满足用户偏好的推送给用户,从而实现了“内容找人”。通过内容个性化,信息流极大降低了用户获取内容的成本,提升了用户在 App 内的使用时长。随着用户使用时长的提升,也随之产生了大量的广告变现机会。


信息流广告具有更原生、更精准、易传播等特点,能自然的融合于平台内容。经过近几年的高速发展,信息流广告已经在整个广告市场中占据了重要位置,逐渐成为移动广告营销的新引擎。


对于视频网站而言,传统的广告收入主要来源于播放器框内的贴片广告。贴片广告用户关注度高,信息传递丰富具体,主要用来投放追求树立长期品牌形象的品牌广告。近几年受经济大环境影响,品牌广告整体市场规模增速放缓,同时视频会员模式的快速发展也进一步挤占了贴片广告的库存空间。信息流广告融合于内容之间,具有展现形式原生、对用户干扰低、投放精准等优势,非常适合投放追求直接转化效果的效果广告,这种广告形式是品牌贴片广告的有力补充。爱奇艺当前正在大力发展信息流广告业务,信息流广告是继品牌贴片广告之后的又一重要广告收入增长点。

用户画像的精准刻画是实现信息流广告的重要因素

大家想必都很清楚,信息流广告的核心是对精准人群推送精准的广告内容,这其中用户画像的核心是数据。数据体量越大,用户画像的精准度就越高,当前爱奇艺拥有 4 亿+的月活用户,积累了包括观影、会员、搜索、游戏、文学等海量用户行为数据。


构建品类丰富的精准用户画像,光有数据还不行,还要对这些数据进行分析以及学习,具体分为以下四步:

1.内容标签的生产与知识图谱的构建

以视频内容为例,每部视频都有大量的中文文本描述,标题、简介、评论、弹幕等。通过 NLP 技术可以对这些中文进行分词处理,提取中心词作为视频标签。将视频标签用做特征,采用聚类的方法可以自动为每部视频生产不同的主题,这些主题也可以直接当做某种特殊类型的视频标签使用。


除了对视频文本打标签之外,还可以使用深度学习模型对视频内容进行理解,采用分类的方法为视频划分不同的种类,如搞笑、游戏、母婴等。通过上述方法,每部视频都被自动打上了内容标签,可以将这些标签看作视频的属性信息。


此外不同的视频之间也存在很多联系,如同一导演拍摄、拥有相同的主演等。通过构建相应的知识图谱,可以将视频间的关系与属性更好的组织起来,并作为基础数据服务提供给后续的标签挖掘和精准推荐使用。有了对视频内容的精准刻画,结合用户行为数据,就能够更准确的理解用户行为背后的真实意图。

2.用户长期、短期兴趣的划分

但是反复推荐给用户类似的同质内容,很容易引起用户的审美疲劳,因此就要将用户兴趣划分为长期和短期两种。正确识别用户的长、短期兴趣对推荐系统非常重要。要解决这个问题需要从源头出发,在数据采集环节就进行划分,分解为离线数据流和实时数据流。离线数据流重点关注数据的覆盖度,尽可能多的覆盖用户不同渠道的行为数据,并从中挖掘出相对稳定的用户兴趣。实时数据流重点关注数据的时效性,通过热点事件的挖掘捕捉用户短期兴趣的变化。

3.用户标签挖掘

在有效处理内容信息与用户行为后,最后就是要通过用户标签挖掘来生成用户画像。用户标签的挖掘主要有两种方式,分别为统计模型和预测模型。


统计模型主要用来挖掘用户相对明确的兴趣,通过统计某一时间窗口内不同行为所发生的次数来生成最终的用户标签。为了获得更加合理的统计结果,额外引入了时间衰减函数来提高最近日期数据的权重,同时对不同类型的用户行为进行加权处理。


预测模型主要用来挖掘用户的潜在兴趣,按预测目标的不同可以分别使用分类模型或者回归模型。提升预测模型准确性,主要依赖充足的标记样本进行模型训练,实际应用过程中一般会采用主动学习的方法来减少人工标注的代价。

4.A/B 实验

用户标签在上线前会经过严格的线上 A/B 实验,只有业务指标验证通过的标签才会最终上线使用,这样可以进一步保证推荐使用的用户标签质量。

智能广告算法引擎所面临的挑战

刘国辉老师坦言,在构建智能广告算法引擎的过程中,挑战和困难都非常大,如何解决用户和广告的相关性问题,实现广告投放的综合收益最大化面临诸多挑战,具体的:

1.来自算法和工程的挑战

一方面需要精准的算法模型来提高预估的准确性,另一方面也需要强大的工程架构来提高服务的时效性 &稳定性。

2.广告请求到最终广告展示之间的效率提升

从广告请求到最终广告展示需要经过定向召回->索引截断->粗排->精排等诸多环节,整个链路可以看作一个漏斗模型,只有不断提高各个环节的吞吐量和准确率,才能达到最终展示结果收益最大化的效果。


只有对每个环节都构建相应的业务指标,实时自动监控指标的变化,及时发现和处理线上问题,同时通过实验不断优化模型,才能在服务性能和准确性方面取得一个平衡。

3.关于 OCPX 投放模式自我探索

智能化是未来广告投放的趋势,过去很多需要广告主自己完成的工作现在都可以移交给系统自动完成。以当下重点推广的 OCPX 投放模式为例,对广告主来讲,广告投放过程的主要痛点在于出价难、冲量难、转化成本不可控。


OCPX 采用精准的点击率和转化率预估算法,可帮助广告主在获取更多优质流量的同时提高转化率。系统会在广告主出价的基础上,基于海量数据和智能算法动态调整出价,进而优化广告主排序,帮助广告主获得最合适的流量,从而降低转化成本。OCPX 投放模式对算法的准确性和时效性要求都非常高,为了提高模型时效性,可以基于 Spark Streaming & FTRL 进行模型在线学习;为了提升模型的准确性,可以采用迁移学习的方法,来解决广告转化路径靠后的转化类型样本稀疏的问题。

巴黎圣母院失火=恐怖袭击?

前段时间巴黎圣母院起火,YouTube 的算法却将这个事件匹配为恐怖袭击,一时引起轩然大波。同为视频播放网站,爱奇艺是否也会有这样的问题呢?


刘国辉老师认为这样的错误在所难免,任何算法都很难做到 100%准确,在广告场景也会有类似问题。广告点击率是最终排序的重要因子,一些诱导性广告,如红包、返现、美女等,会产生大量的用户点击。如果模型训练使用了这部分样本数据,就会把相关广告错误判断为高价值广告,从而提高推送概率引起用户投诉。


为了解决这个问题,爱奇艺构建了【创意质量分模型】,通过模型来输出创意的评级分数,分数越低质量越差。创意质量分模型主要包括两部分,一部分基于图像内容理解进行图像分类,如通过 CNN ResNet-50 网络对图像进行分类,识别图像内是否出现诱导性红包,通过 CTPN 模型进行文字检测识别图像内是否出现文字密集的情况等;另一部分基于用户负反馈数据采用统计的方法判断广告是否属于低质广告。


每个子模型都能计算获得一个质量得分,最后再采用模型融合的方式来生成创意的最终评级分数。有了创意质量分后,通过在排序算法中引入质量分因子,就能起到自动打压低质广告的效果。

尾 声

大数据和机器学习技术的快速发展,为信息流广告的广泛应用提供了极大的技术支持。在未来的业务发展过程中,大家的主要工作还是要结合具体的业务场景不断打磨模型,提升算法的精准度。当前 AI 技术已经渗透到广告投放的各个环节,从素材生产、智能投放到效果分析,AI 正在不断提升广告投放的效率和效果。

嘉宾介绍

刘国辉,爱奇艺智能广告部算法总监,硕士毕业于复旦大学。2015 年加入爱奇艺,负责广告算法团队的技术管理和研发工作,带领团队运用 AI 技术提升流量变现效率和效果,主导并搭建了爱奇艺智能广告算法引擎。


5 月 25-28 日,QCon 全球软件开发大会广州站,刘国辉老师将会现场进行【爱奇艺信息流广告的排序算法演进】相关内容的分享,通过简要介绍爱奇艺信息流广告的排序算法演进过程,为现场观众讲解如何运用个性化推荐技术打造智能广告算法引擎。


2019-05-08 17:135585

评论

发布
暂无评论
发现更多内容

flowjo 10 for mac流式细胞分析 详细安装破解教程 支持m1/m2/intel

Rose

流式细胞分析软件 FlowJo 10破解版 FlowJo Mac版 FlowJo 安装教程

豆包,大模型的磁力三重奏

脑极体

AI

科学文献管理软件EndNote 21功能介绍 含(EndNote 21激活码)

Rose

文献管理工具 EndNote 21下载 EndNote 21破解版 EndNote 21授权码

品牌与分类:解析京东商品详情API中的品牌与分类信息

技术冰糖葫芦

API 安全 API 文档 API 测试 API 优先

windows11系统,Win11,windows11下载,ARM版Win11镜像

理理

Windows11 Windows系统下载 ARM版Win11镜像 Windows系统安装

IntelliJ IDEA 2019 mac破解版 含IDEA 2019永久密钥 附IDEA 2019中文版设置教程

Rose

IntelliJ IDEA 2019 IntelliJ IDEA 2019密钥 编程软件 IDEA 2019

视角 | 麻省理工学院提出出温度计校准法,专治AI大模型过度自信

硅纪元

BetterTouchTool for mac触摸板增强神器下载 bettertouchtool破解版详细使用教程

Rose

BetterTouchTool破解 BetterTouchTool教程 Mac触控板增强工具

领域驱动设计:问卷schema的原理

XIAOJUSURVEY

schema 领域驱动 问卷模型 领域模型 UIschema

链路级资损防控之资损字段防控实践|得物技术

得物技术

最佳实践 测试 资损防控 企业号2024年7月PK榜

Magnet for mac v2.12.0中文免激活版 支持多种不同方式的窗口布局模式

Rose

Magnet破解版 Magnet Mac下载 苹果电脑分屏软件 macOS窗口管理

告别手动错误,NineData自动化平台保障数据库变更零失误

NineData

数据库 dba NineData 变更一致性 多环境结构

Riot Platforms 报告称,由于比特币挖矿量下降,损失了 8440 万美元

dappweb

微软Azure遭遇DDoS攻击,全球云服务再次敲响警钟!

网络安全服务

微软 azure 云服务 DDoS DDoS 攻击

Microsoft PowerPoint 2019 for Mac永久使用版 支持Inte.m1.m2.m3安装

Rose

PowerPoint 2019 ppt2019下载 PowerPoint 2019 破解

担心异构数据库迁移踩“坑”?听听大咖们怎么说

YashanDB

yashandb 崖山数据库 崖山DB

ChemDraw可以绘制哪些物质?ChemDraw破解补丁版下载安装 Mac/win

Rose

ChemDraw破解版 ChemDraw化学绘图 ChemDraw下载安装

如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构

百度Geek说

大模型 Llama3

PDF解析,还能做得更好

合合技术团队

PDF 大模型 文档解析

职场<火焰杯>测试开发大赛证书已开放下载!

霍格沃兹测试开发学社

如何在苹果mac电脑畅玩原神游戏?playcover for mac你一定不要错过了

理理

原神 Mac软件 playcover iOS软件

什么情况下你能接受 996

王中阳Go

Go 工作 面经

GraphPad Prism科技绘图与数据分析

Rose

GraphPad Prism破解版 科学绘图和统计分析 GraphPad Prism下载

LED异型显示屏:创新设计与市场需求的完美融合

Dylan

设计 应用 LED LED显示屏 市场

IPQ9574 vs. IPQ6010 in Smart Manufacturing: Which Chipset Leads the Way?

wallyslilly

ipq9554 ipq9574

在元宇宙与实体办公室之间,您更倾向于哪一种工作方式?

dappweb

最高可管理 10K 实例的 InstanceSet 是什么?

小猿姐

数据库 Kubernetes 云原生

Downie 4 v4.7.24最新中文版下载 永久使用 支持M1.M2.M3芯片安装

Rose

Downie 4许可证 Mac视频下载器 Downie 4下载 Downie 4使用教程

职场<火焰杯>测试开发大赛证书已开放下载!

测试人

软件测试

Mac远程连接软件 microsoft remote desktop苹果汉化版

理理

远程桌面连接 microsoft remote desktop 微软远程软件mac版

喜加一!望繁信科技再摘「2023年度新锐技术品牌奖」

望繁信科技

流程挖掘 流程资产 流程智能 数字北极星 望繁信科技

让用户喜欢上广告:信息流技术背后的爱奇艺风格_大数据_刘国辉_InfoQ精选文章