大家好,今天分享的主题是:度小满金融信贷业务的智能获客系统实践。根据过去两年的工作经验,将其总结沉淀为渠道、效率、数据理解和度小满智能获客系统这四个环节,其中前三个环节是对获客的理解,渠道指明了获客方向,效率好比获客的发动机,数据则是获客的燃料。
渠道
1. 都有哪些渠道?
获客时首先会思考这样的问题:获客的体量有多大?获客的人群是什么样的?获客的渠道有哪些?获客的成本是多少等等。实际工作中,我们应先充分开发公司内部数据,逐步接入外部数据。常见的获客渠道有:直接触达,竞价广告、流量合作和线下渠道。
直接触达,依托公司内部数据,具有高转化率,低接入成本,高可操性,但受限于客户规模;
竞价广告,公司外部主要获客渠道,克服了客户规模弊端,但是市场竞争激烈易产生恶劣竞争、市场变动快、影响大,成本高;
流量合作,是一种较为稳妥的方式,客户规模大,增强公司壁垒,但接入成本高,可操作性弱;
线下渠道,复杂多样,各个公司都在尝试,但还未形成成熟的获客环境。
2. 如何选择渠道?
不同渠道各有利弊,如何选择渠道?从认知角度来看,产品初期,以感官认知为主,依赖产品的定位,从而确定渠道;产品发展期,分析认知逐渐重要,用户画像、用户标签帮助我们更好确定目标客户,选择合作渠道;产品成熟期,分析认知很难提高效果,转为大数据驱动的模型认知,模型可以更好地细分客户,具有高信息利用率、判别准确率和鲁棒性。
主要做法是把已知的行为和用户画像,抽象成特征,这时我们的数据集有了万维特征,然后在把特征 Embedding 成百维特征空间里,当需要投放时,会寻找目标客群,以及相似的空间向量(相似客群)进行投放。
PS:在寻找相似人群的时候,需要考虑噪音的问题,会把单目标客群到多目标客群去掉,voting 是必要的。
效率
1. 单客户的效率,如何更精准的获客
智能引擎可以提高单客户的效率,在风控模型调用前使用,它由响应模型、预授信模型、额度预估模型、价格预估模型、用信预估模型和利润预估模型组成。
以主动触达方式为例,对授信成本进行预估,将响应模型和预授信模型拟合在一起,从而得到客户授信成本的排序,在选择客户时,优先选择预授信成本低的客户进行广告投放;
以被动触达方式为例,在授信、用信、额度、广告竞价环节中,均使用模型过滤掉质量低用户,这种方式会尽量最大化单客户效率。
可能大家会疑惑为什么需要建立多环节的模型,原因有二:
一是,不同阶段用户流失是不同的,建立多个环节的模型可以有选择的使用,确保不是一味的提升单客效率而降低了全局的效率;
二是,相同的特征在不同的模型中表现差异性很大,可以更有效使用特征。
2. 整体的效率, 模型如何快速迭代
实验和模型的迭代是继续往前走的很重要的保障,以实验流程缩减流程图为例,线上同一时间运行四个模型,① 线上最优模型,② 根据新样本每天更新的模型,③ 一系列的观察模型,④ 随机采样的过程;采样过程可以做很多事情,包括 MAB 的方法或自己设定方向的探索,比如下一版模型中,新样本应占总体样本的比例,样本的时效性处理等等。模型对比应做到严格的 AB test 对比机制,避免产品调整,市场波动带来的影响,排除主观臆测。
数据理解
第三部分是讲数据,我们前面提到,数据是获客的燃料,模型做的好不好,数据理解是最重要的,数据理解主要包括两个方向:特征理解(如何更好的挖掘理解特征)和样本理解(如何理解样本是否为目标样本)。
1. 特征理解,deepFM 更好的理解特征
将不同的特征进行融合,解释这样的特征时,我们一般采用两种方式,一种是从广度上理解,如矩阵式的;另一种是从深度上的理解,如深度神经网络,梳理各个特征之间存在的隐藏关系。DeepFM 是我们去年开始调研部署上线的模型,整体模型结构是非常简洁的,DeepFM 就分两个模块,一个是 FM 模块,一个是 DNN 模块。基本上线上线下在同样的数据特征、评测集要比 XGBoost 的 AUC 提升 1~2 个点。
2. 样本理解,建立全生命周期数据构造
构造全链路的转换数据是做好转换归因的第一步,以客户触达的为例,客户前后共经过 feed 流广告展示、短信触达、抖音广告展示、下载 app,搜索广告展示、电话外呼、爱奇艺会员入口展示,用户申请。很难确定哪一种获客方式获得来该客户,在做分析时,尽量避免使用受影响太大的样本。总而言之,我们需要找到用户的关键动作并对之进行分析,但营销场景可能非常复杂,我们不能将用户的关键动作归因到具体的获客渠道策略时,全生命周期的数据管理可以帮助我们解决这样的问题。
度小满智能获客平台
下面介绍度小满获客平台现在的架构,主要分为数据层、技术层、模型层、系统层、功能层和渠道。
① 从数据来讲,主要的数据来源是用户数据,第二个是广告数据、第三个是用户的生态数据;
② 在系统层,主要为智能引擎、创意引擎、广告投放平台、内容辅写平台、实验平台这五个部分:
智能引擎主要配置响应模型、授信预估等,使用常规的机器学习模型一般为 xgboost ,deepFM ,stacking 等;
创意引擎,指的是获客的千人千面的创意,实现方式有文本创意和图片创意,文本创意以 GAN 深度学习模型为主,图片创意现在做到提取图片关键因素,还未实现完全图片的自动生成;
广告投放平台是主要体现技术的地方,投放时间预估、投放频度等;
内容辅写平台以 nlp 技术为主,同时也包括文章质量的预测、热门文章的预测等;
实验平台主要是加速实验的进程和舆情的监控。
③ 上面介绍了智能获客平台的底层架构,主要是为了实现上层功能,也就是多目标客群的识别、千人千面创意和快速迭代反馈,从而为客户匹配合适的渠道,更适合的触达方式和触达内容。
作者介绍:
费浩峻,度小满金融(百度金融)主任架构师。负责百度金融智能获客技术架构。从 0 到 1 建立了百度金融以人工智能为核心、大数据为基础的多平台的智能获客系统,支持了千万级的用户获取。专注于大数据、人工智能方向研究,有大数据、nlp、计算广告、信息处理等 10 余篇专利。
本文来自 DataFun 社区
原文链接:
https://mp.weixin.qq.com/s/LknTVTT2ahw7U-H3fRgWGQ
评论