写点什么

让用户喜欢上广告:信息流技术背后的爱奇艺风格

  • 2019-05-08
  • 本文字数:3501 字

    阅读完需:约 11 分钟

让用户喜欢上广告:信息流技术背后的爱奇艺风格

在大数据和机器学习快速发展的背景下,互联网广告技术得到了进一步的演进。用户,可以说是每一款互联网产品的重要命脉,但是广告,也是一款产品能够盈利的重要举措之一。这两者看似是敌对的关系,并且现在用户每天在互联网上会接触到太多无用的信息,如果按照以前的方式大面积投放广告,不仅会影响到用户的体验感受,投放效果一定也会很差。那么如何在提高广告转化率的同时不干扰到用户的体验,实现产品的可持续发展已经成为了广告投放的主要问题。


对此,InfoQ 采访到了爱奇艺智能广告部算法总监刘国辉,从信息流广告的角度出发,为大家详细阐述信息流广告实践背后的技术能力。此外,刘国辉老师还将在 QCon 广州的【广告系统与推荐算法】专场进行【爱奇艺信息流广告的排序算法演进】的相关分享,欢迎大家届时前来收听。


“内容找人”的信息流

信息流作为一种瀑布式、用户可滚动浏览的内容展现形式,当前已广泛应用于各大视频网站和移动 App。不同于传统的“人找内容”,信息流依赖精准的个性化推荐技术,将海量内容中能够最满足用户偏好的推送给用户,从而实现了“内容找人”。通过内容个性化,信息流极大降低了用户获取内容的成本,提升了用户在 App 内的使用时长。随着用户使用时长的提升,也随之产生了大量的广告变现机会。


信息流广告具有更原生、更精准、易传播等特点,能自然的融合于平台内容。经过近几年的高速发展,信息流广告已经在整个广告市场中占据了重要位置,逐渐成为移动广告营销的新引擎。


对于视频网站而言,传统的广告收入主要来源于播放器框内的贴片广告。贴片广告用户关注度高,信息传递丰富具体,主要用来投放追求树立长期品牌形象的品牌广告。近几年受经济大环境影响,品牌广告整体市场规模增速放缓,同时视频会员模式的快速发展也进一步挤占了贴片广告的库存空间。信息流广告融合于内容之间,具有展现形式原生、对用户干扰低、投放精准等优势,非常适合投放追求直接转化效果的效果广告,这种广告形式是品牌贴片广告的有力补充。爱奇艺当前正在大力发展信息流广告业务,信息流广告是继品牌贴片广告之后的又一重要广告收入增长点。

用户画像的精准刻画是实现信息流广告的重要因素

大家想必都很清楚,信息流广告的核心是对精准人群推送精准的广告内容,这其中用户画像的核心是数据。数据体量越大,用户画像的精准度就越高,当前爱奇艺拥有 4 亿+的月活用户,积累了包括观影、会员、搜索、游戏、文学等海量用户行为数据。


构建品类丰富的精准用户画像,光有数据还不行,还要对这些数据进行分析以及学习,具体分为以下四步:

1.内容标签的生产与知识图谱的构建

以视频内容为例,每部视频都有大量的中文文本描述,标题、简介、评论、弹幕等。通过 NLP 技术可以对这些中文进行分词处理,提取中心词作为视频标签。将视频标签用做特征,采用聚类的方法可以自动为每部视频生产不同的主题,这些主题也可以直接当做某种特殊类型的视频标签使用。


除了对视频文本打标签之外,还可以使用深度学习模型对视频内容进行理解,采用分类的方法为视频划分不同的种类,如搞笑、游戏、母婴等。通过上述方法,每部视频都被自动打上了内容标签,可以将这些标签看作视频的属性信息。


此外不同的视频之间也存在很多联系,如同一导演拍摄、拥有相同的主演等。通过构建相应的知识图谱,可以将视频间的关系与属性更好的组织起来,并作为基础数据服务提供给后续的标签挖掘和精准推荐使用。有了对视频内容的精准刻画,结合用户行为数据,就能够更准确的理解用户行为背后的真实意图。

2.用户长期、短期兴趣的划分

但是反复推荐给用户类似的同质内容,很容易引起用户的审美疲劳,因此就要将用户兴趣划分为长期和短期两种。正确识别用户的长、短期兴趣对推荐系统非常重要。要解决这个问题需要从源头出发,在数据采集环节就进行划分,分解为离线数据流和实时数据流。离线数据流重点关注数据的覆盖度,尽可能多的覆盖用户不同渠道的行为数据,并从中挖掘出相对稳定的用户兴趣。实时数据流重点关注数据的时效性,通过热点事件的挖掘捕捉用户短期兴趣的变化。

3.用户标签挖掘

在有效处理内容信息与用户行为后,最后就是要通过用户标签挖掘来生成用户画像。用户标签的挖掘主要有两种方式,分别为统计模型和预测模型。


统计模型主要用来挖掘用户相对明确的兴趣,通过统计某一时间窗口内不同行为所发生的次数来生成最终的用户标签。为了获得更加合理的统计结果,额外引入了时间衰减函数来提高最近日期数据的权重,同时对不同类型的用户行为进行加权处理。


预测模型主要用来挖掘用户的潜在兴趣,按预测目标的不同可以分别使用分类模型或者回归模型。提升预测模型准确性,主要依赖充足的标记样本进行模型训练,实际应用过程中一般会采用主动学习的方法来减少人工标注的代价。

4.A/B 实验

用户标签在上线前会经过严格的线上 A/B 实验,只有业务指标验证通过的标签才会最终上线使用,这样可以进一步保证推荐使用的用户标签质量。

智能广告算法引擎所面临的挑战

刘国辉老师坦言,在构建智能广告算法引擎的过程中,挑战和困难都非常大,如何解决用户和广告的相关性问题,实现广告投放的综合收益最大化面临诸多挑战,具体的:

1.来自算法和工程的挑战

一方面需要精准的算法模型来提高预估的准确性,另一方面也需要强大的工程架构来提高服务的时效性 &稳定性。

2.广告请求到最终广告展示之间的效率提升

从广告请求到最终广告展示需要经过定向召回->索引截断->粗排->精排等诸多环节,整个链路可以看作一个漏斗模型,只有不断提高各个环节的吞吐量和准确率,才能达到最终展示结果收益最大化的效果。


只有对每个环节都构建相应的业务指标,实时自动监控指标的变化,及时发现和处理线上问题,同时通过实验不断优化模型,才能在服务性能和准确性方面取得一个平衡。

3.关于 OCPX 投放模式自我探索

智能化是未来广告投放的趋势,过去很多需要广告主自己完成的工作现在都可以移交给系统自动完成。以当下重点推广的 OCPX 投放模式为例,对广告主来讲,广告投放过程的主要痛点在于出价难、冲量难、转化成本不可控。


OCPX 采用精准的点击率和转化率预估算法,可帮助广告主在获取更多优质流量的同时提高转化率。系统会在广告主出价的基础上,基于海量数据和智能算法动态调整出价,进而优化广告主排序,帮助广告主获得最合适的流量,从而降低转化成本。OCPX 投放模式对算法的准确性和时效性要求都非常高,为了提高模型时效性,可以基于 Spark Streaming & FTRL 进行模型在线学习;为了提升模型的准确性,可以采用迁移学习的方法,来解决广告转化路径靠后的转化类型样本稀疏的问题。

巴黎圣母院失火=恐怖袭击?

前段时间巴黎圣母院起火,YouTube 的算法却将这个事件匹配为恐怖袭击,一时引起轩然大波。同为视频播放网站,爱奇艺是否也会有这样的问题呢?


刘国辉老师认为这样的错误在所难免,任何算法都很难做到 100%准确,在广告场景也会有类似问题。广告点击率是最终排序的重要因子,一些诱导性广告,如红包、返现、美女等,会产生大量的用户点击。如果模型训练使用了这部分样本数据,就会把相关广告错误判断为高价值广告,从而提高推送概率引起用户投诉。


为了解决这个问题,爱奇艺构建了【创意质量分模型】,通过模型来输出创意的评级分数,分数越低质量越差。创意质量分模型主要包括两部分,一部分基于图像内容理解进行图像分类,如通过 CNN ResNet-50 网络对图像进行分类,识别图像内是否出现诱导性红包,通过 CTPN 模型进行文字检测识别图像内是否出现文字密集的情况等;另一部分基于用户负反馈数据采用统计的方法判断广告是否属于低质广告。


每个子模型都能计算获得一个质量得分,最后再采用模型融合的方式来生成创意的最终评级分数。有了创意质量分后,通过在排序算法中引入质量分因子,就能起到自动打压低质广告的效果。

尾 声

大数据和机器学习技术的快速发展,为信息流广告的广泛应用提供了极大的技术支持。在未来的业务发展过程中,大家的主要工作还是要结合具体的业务场景不断打磨模型,提升算法的精准度。当前 AI 技术已经渗透到广告投放的各个环节,从素材生产、智能投放到效果分析,AI 正在不断提升广告投放的效率和效果。

嘉宾介绍

刘国辉,爱奇艺智能广告部算法总监,硕士毕业于复旦大学。2015 年加入爱奇艺,负责广告算法团队的技术管理和研发工作,带领团队运用 AI 技术提升流量变现效率和效果,主导并搭建了爱奇艺智能广告算法引擎。


5 月 25-28 日,QCon 全球软件开发大会广州站,刘国辉老师将会现场进行【爱奇艺信息流广告的排序算法演进】相关内容的分享,通过简要介绍爱奇艺信息流广告的排序算法演进过程,为现场观众讲解如何运用个性化推荐技术打造智能广告算法引擎。


2019-05-08 17:135738

评论

发布
暂无评论
发现更多内容

DevOps与低代码:重塑软件开发与运维新时代

EquatorCoco

DevOps 运维 低代码

字节面试:说说Java中的锁机制?

王磊

Java 面试

低代码与AI技术发展:开启数字化新时代

不在线第一只蜗牛

人工智能 AI 低代码

为什么推荐将 IoTDB 服务地址配置为 HostName 而非 IP?

Apache IoTDB

我,古希腊掌管「智算」的神!

白洞计划

AI 智算

有了1688跨境接口,没有1688代采系统怎么办?

tbapi

1688API接口 1688代采系统

人类将会永生?谷歌 DeepMind重磅发布Alphafold 3 ——天花板级别的AI系统

GPU算力

深度学习 DeepMind 生物信息学 AlphaFold 蛋白质预测

巴黎奥运会:在线观看赛事直播平台开发与数据获取方法

软件开发-梦幻运营部

容器技术:优化软件测试流程的利器

霍格沃兹测试开发学社

Postgresql查询每个月最后一天的数据||查询每个月数据中的最后一条数据

李爽

postgresql #SQL

OpenAI 或将推出多模态人工智能数字助理;研究发现部分 AI 系统已学会「说谎」丨 RTE 开发者日报 Vol.203

声网

Qualcomm CPU: IPQ9574, IPQ9554 and IPQ5322, what do you know?

wifi6-yiyi

WiFi7 ipq9574

低代码与Web开发:颠覆传统模式的现代技术

快乐非自愿限量之名

前端 Web 低代码

从XML配置角度理解Spring AOP

快乐非自愿限量之名

Java xml spring

探索未知:风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国

Zilliz

AI 非结构化数据 Meetup Zilliz

大厂技术同学的落地困境

老张

团队管理 职业规划 职场发展 大厂求职

NFTScan | 05.06~05.12 NFT 市场热点汇总

NFT Research

NFT NFT\ NFTScan

虚拟仿真云实训平台:更优质的教育资源服务

3DCAT实时渲染

虚拟仿真 实时渲染 仿真云

海外云手机——电商最有效的引流工具

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机 跨境云手机

建木Hub流水线正式版上线啦!!限时送200分钟体验时长

都广科技

DevOps

个人名片升级攻略:ChatGPT助您塑造独特简历风格

测试人

软件测试 简历 ChatGPT

国标参编征集 | 关于公开征集《物流企业数字化 第二部分:平台架构》国家标准起草单位的通知

信通院IOMM数字化转型团队

数字化转型 物流

Django性能之道:缓存应用与优化实战

不在线第一只蜗牛

sqlite django 缓存

在数字化时代保持企业财务管理的持续技术创新

智达方通

特权账号管理的那些坑

芯盾时代

iam 统一身份认证 特权账号管理

【YashanDB知识库】ycm托管数据库时,数据库非OM安装无法托管

YashanDB

yashandb 崖山数据库 崖山DB

免费的集成组件有哪些?

RestCloud

ETL 数据集成 ETLCloud

从零开始:使用 Playwright 脚本录制实现自动化测试

霍格沃兹测试开发学社

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

GPU算力

深度学习 英伟达 Blackwell GB200

让用户喜欢上广告:信息流技术背后的爱奇艺风格_大数据_刘国辉_InfoQ精选文章