速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

深度学习在 360 搜索广告 NLP 任务中的应用

  • 2019-07-22
  • 本文字数:2821 字

    阅读完需:约 9 分钟

深度学习在360搜索广告 NLP 任务中的应用

360 搜索广告成立于 2012 年,到今年是第 8 个年头了。


今天分享的内容分为两部分,第一部分是搜索广告广告召回。我会介绍搜索广告的业务逻辑,以及召回模块的逻辑。第二部分是语义相关和深度学习,这部分会介绍语义相关的计算方法以及使用的深度学习模型。

搜索广告 & 广告召回


360 的搜索广告系统从逻辑上可以划分为三个模块:广告召回、广告排序和广告展示。


  • 广告召回:这个模块决定召回哪些广告,涉及到广告索引和相关性计算;

  • 广告排序:这个模块决定展示哪些广告,涉及到点击率预估和竞价机制;

  • 广告展示:这个模块决定如何展示广告,涉及到广告创意的选择。



下面通过一个 Case,来说明 360 搜索广告系统的业务逻辑:


  • 假设,我们两个电商行业的广告主,都购买了某品牌吸尘器的广告。他们向广告系统提交了关键词,和出价。

  • 召回模块会计算 query 与广告关键词的相关性,根据相关性来决定是否召回这两个广告,结果是两个广告都相关,所以两个广告都召回。

  • 广告排序模块,会计算两个广告的点击率和质量分,并根据竞价机制,来决定他们是否可以展示,以及展示位置。

  • 最后,广告展示模块会根据广告主提供的物料以及展示位置,来选择广告创意。



接下来继续应用这个 Case 来说明广告召回模块的召回逻辑:左边是用户搜索的 query,右边是广告主购买的关键词,这里有俩种召回方式,第一种是精确匹配召回,第二种是语义相关召回。



精确匹配召回对应的是一个 Match 的逻辑,可以理解成字符串的匹配,当然还有一些规则的匹配,比如这里会做一个切词之后的乱序的重排序,重排序之后如果能匹配上,我们也算是精确召回。



语义相关召回对应的是一个 lookup 的逻辑,这里查找的是一个 query 到 bidwords 的映射表, 这个映射表是由一个离线挖掘的流程提供的。而离线挖掘的流程是一个漏斗的逻辑。漏斗的上方是多种数据挖掘方法,比如随机游走,文本检索,等。这些方法提供 query 到关键词的候选集。漏斗的下方是一个相关性模块,这个模块对候选集进行相关性过滤,把过滤后的数据提供给线上的映射表。


所以处在漏斗下方的相关性模块直接决定了线上数据的质量。

语义相关 &深度学习

我们进入第二部分,语义相关和深度学习。



早些时候,计算语义相关性的方法,主要是特征工程 + GBDT。特征包括:文本相似度,embedding 相似度,bm25,以及搜索引擎提供的一些特征,等等。特征工程的问题在很难表征语义,所以准确率得不到保证。



随着 DeepLearning 技术的发展,nlp 领域的多个任务,相继提出了深层语义模型。


2013 年,web search 任务提出了 DSSM 模型,DSSM 对 query 和 doc 独立进行编码,编码层可以选择 FNN,CNN,或者 RNN,输出层用 cosine 和 sigmoid 来计算相关性。DSSM 的特点是 query 和 doc 独立编码,doc 的编码可以离线计算,线上只做 cosine 和 sigmoid 计算。



2016 年,language inference 提出了 ESIM 模型,ESIM 采用了两层 bidirectional LSTM,中间引入了 soft attention。这个模型广泛应用于智能客服系统。如果大家对智能客服了解的话,大概会知道客服系统一般会构建一个问答库,ESIM 用于计算问题和问题的相关性,然后把语义相同的问题归结到同一个答案上。这个就跟我们的广告词召回非常像了,我们的任务是让语义相同的 query 可以召回相同的广告关键词。



2018 年,也就去年,我们说,Bert 模型横空出世。Bert 采用了 pre-training 和 fine-tuning 的方式,真正意义上 实现了 NLP 领域的迁移学习。Bert 刷新了 11 项 NLP 任务的记录,其中就有两项语义相关的任务。


我想大家对 Bert 的评价主要是两种,第一种是,Bert 让我们看到了深层的 Transformer encoder 具有强大的语义表征能力。第二种更实际一点,是 Google 发布的 pretrain 的 model,中文方面就是那个 base 版的 Chinese model。他的意义在于,对于一些小样本的问题,我们用有限的样本,去 fine-tune 这个 model,就可以获得不错的效果。小样本使用大模型,这在之前是做不到的。

1. Models


这是我们在实际工作中使用用的三个模型的参数对照。其中,DSSM 和 ESIM 参数数量都在 2M 这个量级。而 BERT 参数总量超过了 100M。之所有这么多的参数,是因为 bert 将 transformer 层累加了 12 层。而且每个 transformer 层又是一个 12 个 head 的 multi head Attention。



我们知道,Google 发布的中文的 model 是 12 层的 base 版 ,没有发布 24 层的 large 版。出于一个贪婪的想法,我们在 12 层上又累加了 4 层 transformer block,这时候,参数量从 102M 增加到 130M。如果大家有足够的训练数据,可以往上增加层数,如果数据量不够的话,使用原始的 12 层是足够的。

2. Data


关于数据,我们把相关性的大小,定义为 0 到 4 的五个分值,相关性依次升高 。这和 bert 刷榜的 11 个任务中的 Semantic Text Similarity Benchmark 这个任务是一样的。同时,我们把 0 分和 1 分定义为负例,把 2 分,3 分,和 4 分定义为正例。



我们维护了两个样本集。大样本集有近 11M 样本,主要是通过广告点击日志筛选出来的。通常我们的筛选方式是结合展示,点击,消费数据,然后再加上一个 baseline 的预测值,综合几个维度,按照经验阈值来筛选。这个样本集的特点是样本量大,混淆度也大。我们还有一个小样本集有近 15 万样本,通过长期的人工标注和运营同学反馈得来的。



两个数据集使用的方式:首先用大数据集,来做第一轮的 training 或 fine-tuning;然后,从小数据集中选取 4/5 来训练第二轮,用剩余的 1/5 来做评测。



这是我们在一个 Tesla P40 上,训练三个模型的耗时。可以看到, 由于采用了两层 LSTM,ESIM 的耗时是最长的。

3. 性能评测


在衡量模型的指标上,我们选择了 AUC。DSSM 和 ESIM 的 auc 是比较接近的,ESIM 表现更好一些。通过分析 badcases,我们看到 DSSM 和 ESIM 还是比较依赖字面相关的,对语义的捕捉不是很好。而 Bert 的 Auc 达到了 86%。



以前面的模型为基础,我们又尝试了一些特征工程。我们结合了 bert 和 dssm 和其他十几维特征,训练 tree booster,AUC 可以达到 87 %。不过考虑到特征工程的复杂性,我们没有采用这个方案。最终,只采用单独 BERT 去做相关性服务。

4. 离线挖掘


这是我们的一个离线挖掘流程:


整个流程是个漏斗的逻辑。首先是用一些离线挖掘的方法,从日志中找到 <query, bidword> pairs,或者用文本检索的方法,获取到候选集。然后通过相关性的预测,再通过 CTR 预测,最后把过滤后的结果发布到线上的 KV 系统。


所以,整个 360 的广告召回模块就是这样,按照两种召回方式,其中语义相关召回方式会提供一个非常大的空间,这个召回方式采用了一个离线的挖掘流程。然后采用相关性计算、CTR 预估过滤流程来提供映射表。这是今天分享的全部内容,谢谢大家。


作者介绍


高凯明,360 算法专家。主要研究方向为自然语言处理,信息检索和机器学习。目前从事搜索广告业务中 NLP 相关的算法工作,负责搜索广告 query 改写,相关性计算等。


本文来自 DataFun 社区


原文链接


https://mp.weixin.qq.com/s/IHnaXtQN1JuU4oHl1JrEQA


2019-07-22 08:003078

评论

发布
暂无评论
发现更多内容

Web3钱包大比拼:Metamask、Trust Wallet、Bitget Wallet 和 Coinbase Wallet

西柚子

Mac 上可以代替 Total Commander 的文件管理软件推荐

南屿

Mac软件推荐 文件管理软件 Total Commander

【中秋国庆不断更】OpenHarmony定义可动画属性:@AnimatableExtend装饰器

OpenHarmony开发者

如何搭建一个专属的认证中心(二)

Kevin_913

spring security springboot OAuth 2.0

[大厂实践] Zuul连接控制实践

俞凡

架构 netflix 大厂实践

我设计的免费小程序不香吗,欢迎评论交流

一点点小创意

MacBook虚拟机Parallels Desktop 19正版安装密钥

南屿

Mac虚拟机下载 Parallels Desktop 19 PD19虚拟机破解版

区块链DAPP智能合约系统软件开发搭建

V\TG【ch3nguang】

Web3钱包大比拼:Metamask、Trust Wallet、Bitget Wallet 和 Coinbase Wallet

小哈区块

[大厂实践] 零配置服务网格与按需集群发现

俞凡

架构 netflix 大厂实践

玩 DeFi 必备的钱包!教你快速学会玩转 Web3 应用!

BlockChain先知

【中秋国庆不断更】HarmonyOS对通知类消息的管理与发布通知(上)

HarmonyOS开发者

探索AI世界:机器学习和深度学习

麦田的守望者

机器学习 深度学习、

免费 AI 代码生成器 Amazon CodeWhisperer 初体验

亚马逊云科技 (Amazon Web Services)

人工智能 亚马逊云科技

英文版Premiere Pro怎么切换成中文?PR汉化包怎么安装

南屿

Mac软件 Premiere Pro 2023 PR2023中文版 Premiere Pro破解版

Microsoft 365 办公套件辅助功能介绍,让效率更高!

南屿

Microsoft 365 Office 2019破解版

Apple芯片 (M1/M2)的Mac电脑降低安全性,启用内核扩展图文教程

展初云

Mac mac教程

5大文件管理操作,Python自动化办公,整明白了

程序员晚枫

Python Office 自动化办公

如何搭建一个专属的认证中心(三)

Kevin_913

springboot Spring Security OAuth 资源服务器

【原理篇】Supabase的API Key工作机制和使用场景

张文平

权限 Supabase API Key

智能文字识别技术——AI赋能古彝文保护

陈橘又青

人工智能

海信电视U8“死磕”技术,家庭影音娱乐的体验突围

脑极体

电视

macOS Sonoma 正式版系统已发布,macos14值得更新吗

南屿

苹果系统下载 macOS Sonoma MacOS14系统

苹果Mac纯净卸载用什么工具(App Cleaner & Uninstaller)

展初云

Mac Mac软件 卸载工具

不愧是疑问解决神器!你强任你强👍👍👍

Immerse

JavaScript 读书 重构 代码优化 优化技巧

文心一言 VS 讯飞星火 VS chatgpt (103)-- 算法导论10.1 1题

福大大架构师每日一题

福大大架构师每日一题

十一假期带上HUAWEI Mate 60系列,HarmonyOS 4让旅行更精彩!

最新动态

Eclipse 主网即将上线迎空投预期,Zepoch 节点或率先受益

大瞿科技

Eclipse 主网即将上线迎空投预期,Zepoch 节点或成受益者?

西柚子

2023 年 Bitget Wallet 测评:这个钱包到底靠不靠谱?

石头财经

【中秋国庆不断更】XML在HarmonyOS中的生成,解析与转换(下)

HarmonyOS开发者

深度学习在360搜索广告 NLP 任务中的应用_AI&大模型_DataFunTalk_InfoQ精选文章