引言
在聊 DMP 的高级玩法之前,有必要简单普及一下程序化广告,以及 DMP 在其中的角色和功能。程序化广告是以人为本的精准广告定向+媒体资源的自动化、数字化售卖与采购的过程。 在程序化广告投放的过程中,DMP 扮演的是流量字典一样的角色,能帮助需求方识别和判断出流量是否属于广告的目标受众,从而让需求方可以把广告投放给对的人群。
本质
众所周知,大品牌广告主的投放规模比较大,并且通常会选择不同程度的包量投放模式,这意味着品牌活动期间,每天发生数亿次查询请求和近亿次广告曝光是常态。因此,大品牌主在选用 DMP 时一定有两个最基本的要求:
1 有足够大的设备数据体量
也就是说这本字典的词汇量要足够大,尽量让每一次查询都查有所得。如果 DMP 的设备数据体量不够,就意味着大部分流量都无法被识别,如果就这样把广告投出去,意味着需求方不能预判这个流量是否符合目标人群的条件,那么投放的结果将毫无精准和高效可言;如果不投,则意味着大量的曝光机会被浪费,广告的整体曝量和转化率都很低,完全无法满足品牌传播的最基本预期。
2 有丰富且覆盖率较高的标签
这些标签往往是需求方选择目标人群的依据,想把广告投给什么样的人群,就通过标签筛选出各类符合要求的设备作为广告投放的对象。因此标签维度越丰富,目标人群的选择和划分就越精细,标签的覆盖率越高,相同标准下筛选出来的目标受众数量就越多,广告的目标受众量上限也就越高。
由此可见,为大品牌主提供 DMP 服务的前提,除了具备最基本的技术对接能力之外,数据的广度和深度也不可或缺。也就是说,虽然大数据公司不一定提供 DMP 服务,但能提供优质 DMP 服务的一定是大数据公司,通过自身产品积累了庞大的数据源和流量池,并借助强大的数据处理和计算能力,形成了丰富的标签体系。
但近年来,众多大品牌主的数字化转型工作进展迅速,数据对于品牌主而言越来越透明、可用,在数据的加持下广告效果的归因变得可行,而通过数据赋能广告投放提效也成为品牌主的新课题。对于长期以来消耗巨额预算,海量消费者的营销,担当企业和产品形象,却又不直接为转化和销量背锅的品牌广告而言,如果在数据智能的加持下也能“带货”的话,对品牌主而言都将会是“真香”的存在。毕竟一波营销活动的受众数量动辄上亿,即使有万分之一的转化,也能带来上万笔订单。于是,“品牌广告效果化”成为大品牌主数据团队的试验田。也是在这样的业务需求和背景下,DMP 的高级玩法诞生了。
之所以称为高级玩法,是因为 DMP 的身份虽然没变,但目标受众不再是通过标签筛选出来的了,而是通过算法模型让 AI 学习和预测出来的。甚至需求方在描述目标受众的时候,也无需罗列人群的各类属性和特征,取而代之的是明确希望实现的转化指标,并提供少量范例样本。
举个直白的例子:传统模式下,需求方会在 request 中注明目标受众的特征,如“一线城市 20-30 岁的女性”,DMP 服务方会通过标签筛选出符合一线城市 &20-30 岁 &性别为女的人群。而高级玩法下,需求方只需明确“希望将广告投给最有可能购买产品的人群”,DMP 服务方会基于对转化目标的理解设定正负样本,构建二分类/多分类模型,再用模型预测出最有可能买产品的人群。
这是一种为最大化实现转化目标而形成的 DMP 服务模式,提供服务的前提除了庞大的设备体量之外,还要借助设备尽可能多而全的行为特征数据,并且需要有一定数量的样本数据输入。比如目标是“选出最有可能购买产品的人群”,往往需要先选择一部分已经买过产品的人群作为正样本,没买过产品的人群作为负样本。而之后通常需要依次进行正负样本优化和输入、特征匹配、特征降维、模型训练和调优才这几步才能完成模型。最后再用模型预测设备与正样本人群相似的程度,从而找出目标人群。
原理
以二分类模型为例,整个建模和预测的过程就像教孩子辨认汽车的过程:我们先拿出两叠图片,一叠里都是轿车,另一叠里是货车、SUV、摩托车等非轿车。然后告诉孩子,这一叠图片里的是轿车,另一叠图片里的不是。为了帮助辨认,你可能会告诉孩子轿车都看起来比较扁、底盘也比较低;不是四个轮子的都不是轿车,带货箱货斗的也不是,开车的人坐在外边的也不是等等……然后再把两叠图片合在一起打乱顺序,让孩子辨认哪一张是轿车,哪一张不是。一开始孩子很容易认错,但在你一次次纠正、指导以及他的反复练习后,孩子就基本具备了正确的判断力,不怎么出错了。这时候你把他领到马路边,让他从驶过的每一辆车中指出哪些是轿车。
如果我们把建模和模型预测中的概念和步骤,与上述例子对号入座的话。家长就是数据科学家、孩子就是 AI,正样本就是那一叠轿车的图片,负样本就是另外一叠其他车型的图片。家长挑选正负样本的过程,实际就是数据科学家准备图片的过程。图片中轿车的外观、造型等诸多可见的细节就是特征,我们告诉孩子轿车都有哪些特点的过程就是特征匹配和降维,我们打乱图片让孩子一次次辨认的过程就是模型训练,然后我们不断纠正、指导的过程就是模型调优。
而最终孩子头脑中形成的对轿车的判断能力,就是模型本身。之后让孩子去路边辨认轿车,就是模型预测的过程。而那些被孩子辨认出来的轿车,就是需求方想要的目标人群。
例子听起来蛮简单的,但实际上建模和预测的过程中,有很多至关重要的细节要决策和处理好,这通常对于数据科学家的经验和业务理解力有着很高的要求。还拿上边这个例子来说:家长发现孩子在刚开始练习的时候,很容易把红色的车都认成轿车,仔细观察后发现是因为轿车那一叠图片里,红颜色的车很多。于是家长告诉孩子,车的颜色与车型是无关的,应该仔细观察汽车形状结构上的差异。随后,家长把两叠图片中的车都 P 成红色,重新打印出来,让孩子继续练习识别车型。那么家长这一波指导和操作,实际就相当于数据科学家所做的特征降维工作的一部分。
同时,样本的数量是否足够,设备行为特征数据是否适合、丰富,颗粒度是否够细等因素,也极大程度上影响着模型的预测效果。还是这个例子,如果从两叠照片中分别只抽取两三张照片来教孩子,如果碰巧抽中的轿车都是两厢轿车的图片、非轿车都是皮卡的图片,那么最终在马路旁辨认的时候,孩子很可能会把 SUV 认成轿车,把三厢轿车认成皮卡。造成孩子把车认错的原因主要就在于正负样本量过小,导致只通过几张图片的练习,还完全不足以区分出路面上两厢轿车和 SUV 的差异。
再比如,给孩子练习所使用的汽车图片,手绘的简图肯定不如清晰的效果图,清晰的效果图又肯定不如实车的高清照片;而如果可以用足够多的高仿汽车模型,甚至是真车来练习辨认,那么效果显然会更好。因为最终孩子是要上路识别真车的,而训练时如果可以基于真车来练习,那无疑对车型的实际差异会有更全面、立体、客观的认知和印象,最后在路边辨认时,准确性也必然会极高。对于孩子而言,真车比图片增加了太多可见或可直观感受到的元素和细节。这种图片和真车的差异,其实就类似于特征数据质量、维度的高与低以及颗粒度大与小的差异。
实践
前面,文章介绍了 DMP 高级玩法的本质和原理。大家一定很好奇,这看上去高级的玩法,效果究竟能有多少提升啊?接下来再举个真实的案例,让大家直观感受到效果。
这是一个食品行业大品牌主的需求,希望在曾经被投放过广告的人群中找出最有可能购买产品的人群,广告进行二次投放,目的是为了获得尽可能高的广告曝光到产品购买的转化率。
面对客户这一非常符合 DMP 高级玩法应用场景的需求,TalkingData 选择通过二分类模型预测找出这部分高潜人群,并建议品牌主除历史曝光人群外,额外提供目标商品近半年的订单数据。通过数据融合,从这部分购买人群中挑选出数万个仅在非促销时段购买了该产品的设备作为正样本,同时选出数万个半年内点击过广告却没有购买目标产品的设备作为负样本。随后,将正负样本与 TalkingData 的活跃设备库匹配,选出最终用于建模的样本。
再之后就是指标体系设计、特征匹配、降维和模型训练的过程了。这次建模所使用的特征库包含设备 APP 行为、位置、终端属性等 8 大类合计 20 万+个特征,样本匹配全部特征后,经过稀疏特征过滤、高相关性特征删除等一系列特征降维处理后,得到 1000+个有效特征,再选择其中最重要的 200 个特征作为模型训练和预测的依据。
建模完成后,刨除正负样本,将所有半年内被投放过广告且和 TalkingData 活跃设备库可匹配上的设备,都用模型预测出了一个分值,这个分值的高低代表购买目标品牌产品的可能性或潜力。再把分值按照从高到低排序,选出了几千万潜力最高的设备,同时作为对照,又从近半年内被目标品牌广告投放过的设备中随机选出了等量设备。
之后,在相同的媒介渠道、用相同的创意,对这两组设备做了广告的二次投放,并追踪被广告曝光后一段时间内的产品购买数据。最终发现,通过模型预测出的高潜组在这段时间内的目标产品购买率,比随机抽取的对照组高出 3-8 倍。
这个案例中,TalkingData 针对品牌主旗下的四个品牌分别建模,最终获得四组对比数字。在奉上广告效果成倍提升的同时,AI 还会带给品牌主额外的福利。上文中提到,数据科学家通常会把 AI 在模型训练中找到的最重要特征做分享和解读,而这些特征,可以辅助品牌进一步了解目标受众,以及调整后续营销投放策略。例如,借助 TalkingData 在 APP 行为特征方面的优势,如果我们通过建模发现,这个品牌高潜人群使用出行类 APP 的这一特征重要性最高,那么品牌后续移动端广告预算就可以考虑向出行类 APP 倾斜,促进广告转化率的提升。
需要特别强调的是,样本的选择以及特征的优化是最终决定模型效果的最关键因素,而这一关键因素,往往容易被经验不足的建模人员所忽略。在前面这一案例中,品牌主希望通过模型预测出看过广告后最有可能购买的人群,那么选择曾经在看过广告后又购买了产品的人群作为正样本,逻辑相对简单明了。但负样本应该从曝光后未购买人群中选,还是从点击广告但未购买的人群中选呢?
TalkingData 的数据科学家坚定的选择了后者,并且在标准的特征过滤过程后,对相关性较高的特征做了进一步筛查,去除了其中不合理的特征。这才保证了模型能够具备比较好的预测效果,而这无疑要仰仗数据科学家的经验和判断。
如果说深厚的数据能力、丰富的特征库以及算力强大的 AI 模型部署平台是 TalkingData 的硬件基础,那么身经百战、应对过多个行业以及业务场景需求的数据科学家,绝对是 TalkingData 的硬核实力。
这个实践案例的结果,于品牌主而言无疑是一颗定心丸。对于正在为品牌广告效果化而伤脑筋的品牌主来说,这无疑是一个最新的有力武器。如果想把广告投给最有可能购买产品的人群,却又对他们缺乏了解,不知道选择什么投放渠道;如果有现成的样本数据,想先做大规模的放大,再进行广告投放;如果想提升品牌广告的带货能力,都可以尝试下这个 DMP 的高级玩法,用靠谱的 AI 和模型来帮助提升广告效果。
作者介绍:
赵衡,TalkingData 快消行业解决方案专家。
本文转载自公众号 TalkingData(ID:)TalkingData。
原文链接:
https://mp.weixin.qq.com/s/ec1Q0tbd71ygTIzKJ5m90Q
评论