写点什么

风险价值量化术—互金爆发期的风控技术实践

  • 2019-05-22
  • 本文字数:3980 字

    阅读完需:约 13 分钟

风险价值量化术—互金爆发期的风控技术实践

本次分享分为两部分:业务和技术。



把业务和技术分称为务虚和务实并没有褒贬之义。只是从技术的视角来说,在技术实现之前,我们需要把业务弄明白,否则容易做错方向,浪费了团队的时间和精力。

一. 业务部分

1. 哪些是风控要解决的问题


首先是业务方面,这些年来我们的风控同学都在解决什么问题。


(1)身份认证


传统方式:


  • 身份证

  • 现场拍照


现在大部分互金公司的做法:


  • 账号体系


(同业接入→其他业务共享→市场解决方案)


  • 人脸识别

  • 活体验证


我们需要解决的问题


  • 虚假资料

  • 第三方欺诈

  • 本人欺诈

  • 账户盗用


对应金融机构的主要业务有


  • 理财

  • 转账

  • 支付

  • 消费

  • 信贷


本文聚焦在信贷这个业务下,风险价值量化的作用和方法。


(2)获取客户



我们常见的金融业务获客方式如上,左边为传统获客,右边是互金领域的获客方式。为什么我们先提到获客?因为在获客过程中,金融业务风险因素就已经在其中起到重要的影响作用。


我们认为风控越早参与到业务中越好,最好是立项的时候就有决策权,这里考虑的因素如下:


  • 有效的转化和客单价一样的重要;转化率太高太低都不行;因为风控成本要计算到获客成本中来;(我们在日常的团队和业务管理上经常有一个误区,就是把 KPI 拆的太散太细,以至于不同团队的目标是冲突的);

  • 可识别的客群规模决定了该方案是否可以规模化;

  • 不稳定的客群锻炼不出万能的策略,高手都是提前一招布局;我们需要用差异化的策略服务差异化的用户;(物以类聚,你肯定不愿意跟资质比你低的人平摊各项成本)

  • 充分竞争的市场里,整合资金、客户、产品、风控的能力就会产生价值。


(3)产品的定位(金额、期限、利率、循环、增信)


风险量化能力在如下几个方面,影响着产品的定位


  • 大额产品看客户资质、重视准入规则,小额产品则研究概率、重视用户信用评级;

  • 长期产品要找准个人还款能力的门槛,短期产品则着重把握个人的还款意愿(及容忍尺度的把控);

  • 银行胜在资金成本,消金赢在风控能力,小贷活在流量吸取(金主的不同在于各自优势的差异);

  • 贷后风控能力决定了资产循环的质量;

  • 增信的标的资产能否做兜底,是解决劣后风险的关键;


(4)客群的定位


  • 用户画像:是谁,在哪儿,什么时候,用哪些产品(被讲烂的 5W);合适的时候出现在合适的场景(瑞幸的线下广告投放就是一个成功的案例)

2. 风控的武器有哪些?


各位在金融机构的同事都知道,公司内部我们常用的名称是风险管理部,而非风险控制部,我们的目标不是完全杜绝风险,而是把它控制在我们 ROI 最大的区间。之所以叫风险管理就是让大家用 ROI 的思想来解决问题:


Investment 投入:公司内部有什么资源,外面能买到什么服务,客户能够提供给你什么材料,我们能制造点什么工具。它们都是数据,在风控解决信息不对称的过程中,这些数据就是我们所需信息的载体。


(1)内部数据整理



首先是内部数据的有效利用,图中为银行和互联网公司的常用特征,其中:


银行:防作弊、稳定性、质量、相关性


互联网:丰富度、数量、覆盖率


其他部门的特征数据:例如社交、广告、LBS 等部门的已有特征,其中有类似于社交网络活跃度、广告客群的用户标签;电商产品的积分值;BBS 站内用户等级之类现成的特征;


公司级的大数据共享:大公司的数据中心都有个人兴趣、偏好、习惯、脱敏属性的用户画像;


最后一部分则是通过金融部门自己的专家团队来挖掘金融场景相关的特征,如收入、支出、资产、负债的离散分级标签,BATJ、TMD 等企业都有足够的技术能力和资源完成这项工作。


(2)特征挖掘



在上节例举的各类数据中,我们的工作主要集中在自研金融特征上。流程如下:


首先是专家 Pattern 扩展:比如 BAT 都有自己的 LBS 信息,我们可以基于家庭住址做一个特征,假如你住在一个均价 10W 的小区,无论自有还是租赁,你的收入能力应该都不错。


其次是特征工程:主要指怎么样用不同的特征来做加工组合,然后跟抽象概念能够关联起来。


最后是埋点衍生:当我所有数据都没办法验证这件事情的时候,可以在 APP 中加一些合规的工具,来获取一些有用的埋点序列数据。


(3)外部接口接入及数据合作



(4)数据的进一步扩充


3. 找钉子就是做生态


最开始互金领域是没有模型体系的,银行里有 A 卡、B 卡和 C 卡,我们在互金行业成长的过程中慢慢的把适合它的模型体系建立起来,结构上我们可以分成几个事件时点:1.事前、2.申请、3.交易、4.事后。然后我们针对各产品来做 A、B、C 卡。


4. 我在为谁服务


读者中有很多朋友是做风控业务的,那么一个很重要的问题就是,你需要知道你是在为谁服务,也就是你的视角 POV。




二. 技术部分


介绍了业务背景和我们面对的问题之后,我们才来解释这些问题是怎样解决的。原因在于我们要先想得清楚,然后才能做得明白;业务和技术的关系是方向和数量的关系,方向错了,技术越好,那么结果可能越糟。


下面介绍的建模过程不只限于风控,在获客,导流,分发,催收,资产打包等环节都可以使用。

1. 特征的搭建逻辑



以上大部分的概念相信大家都不陌生,这里简单说明一下 Embedding 的作用,它是我们用来从高维稀疏的空间里,加工出一系列可解释的、低维度的特征集合。



左边为初版模型搭建时需要考虑的特征评估指标,右边是新的产品上线或者老产品模型迭代的时候参考的特征评估方法。



在特征组合方面,我们主要可以采用俩种方式来将非线性特征转化为线性特征:GBDT 和 Random Forest,他们都会生成右边绿色和红色方框中的决策树,这时每一个叶子节点,就已经代表用户画像的某些方面。细节请参考:


https://dl.acm.org/citation.cfm?id=2648589

2. 样本的积累过程


样本的积累过程包括


  • 样本替代

  • 样本划分

  • 样本清洗



首先是我们在不同时期建模过程中样本定义的变化


  • 第一阶段:



特点:样本少,特征多,表现周期短,有异构样本。


方法:按照 DPD 的走势,选择曲线最陡的位置作为正负样本的划分点。


  • 第二阶段:



特点:样本适中,特征较多,表现周期满足要求。


方法:耦合催收策略做样本清洗。


  • 第三阶段:



特点:样本充足,特征高质,表现周期充分。


方法:加入拒绝推断,使用催收结果码做样本清洗,有选择的做样本实验。


样本划分


时间划分(授信日 vs 账单日)vs 随机抽取 vs 其他规则,避免样本穿越(尤其是子模型)。


样本划分的变化


  • 第一阶段,Leave one hot;

  • 第二阶段,5-fold;

  • 第三阶段,OOT(out of time)(Pos/Neg)。


样本对模型体系的影响


  • 通用大模型(策略层划分)

  • 预授信模型 vs 审批模型

  • 分渠道分垂类模型

  • 流量方模型 vs 资方模型


最后是验证集和测试集的定义,如下图:



横坐标为训练集中正样本占比(保持负样本数量不变)或负样本占比(保持正样本数量不变),看测试集的指标变动趋势,评估训练集中样本数量是否充足。

3. 模型的优化过程


准备好了特征和样本,我们已经有了建立模型的基础。在金融领域我们面临的往往是最复杂的业务,但实际上我建议大家用最简单的模型。



AUC 本身描述了模型整体的表现效果,一般情况下 AUC 越大,那么它对风控策略的提升效果也越好。


KS:是否越大越好?不是的,实际上一个模型对实际业务的贡献取决于风控策略与风控模型的配合,模型对 cutoff 的选择和策略对 cutoff 的选择如果差异较大的话,KS 就没有太大意义了。


GINI 与 AUC 的关系如上图所示,两者用其中之一即可。



这里的建模流程比较简单,相关算法请参考其他文章,右边是分数映射的一个案例。每个公司都有自己的一套标准,或者网上有一些公开的数据,这里不细细介绍了。(此处为 2017 年的网络查得信息,不代表当前的真实情况)

4. 上线验证评估


最后是上线的评估验证,包括算法指标验证和业务指标验证。


首先要看的是模型的解释性强不强,主要看如下几点:


  • 特征权重:如 LR 里的 coefficient,GBDT 里的 Weight、Cover、Gain;

  • 样本集打分对照:如优质客群和次级客群的对照;

  • 业务逻辑合理性:这块前面有过介绍。



模型评审


首先是技术同学的算法指标验证:


  • KS 值在 Train、Test、OOT 上的提升与波动!

  • KS 值 @位置的偏移和稳定性!



  • PSI 的波动!

  • swap-in/out



然后是风控业务同学的指标验证:


  • 同通过率情况下违约率的下降;

  • 同违约率情况下通过率的提升;

  • 通过客群的额度波动;

  • 通过客群的用信率波动;

  • 通过客群的 GMV 波动。



这里列举了一些上线事故:


  • 特征穿越:时间、流程、label,这些情况都是大家应该尽量去避免的。

  • 特征扰动:比如社交好友数越来越多、个人信用分越来越高,模型不能经常更新特征参数,此时该做的是归一化,窗口化,正则化。归一化就是我的社交好友数在全国可以 rank 到第几万位,窗口化就是我们不看累积的好友,而只看样本最近一个月新增的好友,正则化就是我把一些特征做一些正则变换。

  • 特征中断:Backup 两个模型版本,随时可以切换,不会影响到业务运营。

  • 大规模实时计算:我们不可能每次都实时计算或者查询某个信息,可行的解决方法是定期的离线批量更新(有时会涉及到 model 重训)。


最后上线的时候建议大家一定要经过这样三个环节:


  • 离线校验

  • 线上校验,上线的时候线上和线下对比;

  • 小流量校验,然后再切换。


本文配套 PPT 下载


关注公众号,后台回复:【量化术


作者介绍:



苏晓林,数据平台架构师。2012 年毕业于中国科学院研究生院,历任网易数据研究员,微众银行数据科学家,百度金融数据智能部技术经理,数据模型团队负责人等职务。从 2015 年开始投入互联网金融行业,参与创建了微众银行早期的反欺诈策略、模型、贷后监控等核心风控工作。以腾讯大数据为依托,为互联网银行的远程开户、转账、放贷业务,解决了身份验证、欺诈识别等关键安全问题。并于 2016 年加盟百度金融,负责数据与模型团队。期间基于非金融大数据+机器学习,为信贷产品的获客、信用风险评估、贷后管理做出了重要贡献,该项工作获得了百度金融事业群季度之星团队奖。数据模型团队在金融科技输出、消费金融业务、资产证券化等业务上都提供了诸多数据建模和策略支持,并孵化出农行大脑思维引擎等重要项目,在互联网金融的数据科学领域积累了丰富的经验。


本文来自 苏晓林 在 DataFun 社区的演讲,由 DataFun 编辑整理。


2019-05-22 08:006855

评论

发布
暂无评论
发现更多内容

二分查找:一种效率较高的查找方法

华为云开发者联盟

开发 二分查找 查找 区间

终于!极狐GitLab 支持 ARM 啦!

极狐GitLab

DevOps 敏捷开发 arm 极狐GitLab 嵌入式硬件

【云原生】Docker 进阶 -- 数据卷使用与实战练习

Bug终结者

Docker 阿里云 云原生 8月月更

迄今为止把Mybatis讲解的最详细的PDF,图文并茂,通俗易懂

冉然学Java

Java 编程 程序员 mybatis 构架

Go-Excelize API源码阅读(十)—— SetActiveSheet(index int)

Regan Yue

Go 开源 源码阅读 8月日更 8月月更

应用实例分析——图像检索

Geek_e369a5

图像搜索

大数据程序员参加培训好还是自学好

小谷哥

开源一夏 | TypeScript对于Duck类型和模块命名空间的应用实战

恒山其若陋兮

开源 8月月更

字节跳动基于ClickHouse优化实践之Upsert

字节跳动数据平台

OLAP Clickhouse 数据库优化 数据库开发 数据库·

Redis API——List功能实践与性能测试【Go版】

FunTester

开源公开课丨ChunJun数据传输模块介绍

袋鼠云数栈

这次6张图带你彻底搞懂RocketMQ是怎么保存偏移量的?

程序员小毕

Java 程序员 面试 RocketMQ 消息中间件

数据说|数字经济,山东16市谁最“炫”?排行榜来了

易观分析

数字经济 山东

华能 + Alluxio | 数字化浪潮下跨地域数据联邦访问与分析

Alluxio

数字化 国产化 东数西算 大数据 开源 数据编排

需求子任务的数据管理提效实践

转转技术团队

开发工具 测试赋能

史上最全的Java并发系列之Java并发容器和框架

自然

多线程 并发 8月月更

面试的朋友听我说,18个MyBatis高频知识及学习笔记,双手奉上

冉然学Java

Java 源码 分布式 mybatis 构架

过等保费用包含哪些?大概多少钱?

行云管家

等保 等级保护 过等保

明源云参加2022数字化转型发展高峰论坛并获多项殊荣

科技热闻

表达式转换-中缀转后缀表达式后计算-数据结构与算法

清风莫追

算法与数据结构 8月月更

破解双中台困局:万家数科 x StarRocks 数字化技术实践

StarRocks

大数据

影响全彩LED显示屏质量的几个因素

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

大数据培训学习软件工程师机构靠谱吗

小谷哥

史上最全的Java并发系列之Java并发机制的底层实现原理

自然

多线程 并发 8月月更

旺链科技成为湖南省区块链协会理事单位

旺链科技

区块链 区块链技术 产业区块链

史上最全的Java并发系列之并发编程的挑战

自然

多线程 并发 8月月更

2022年中国足球赛事营销洞察

易观分析

营销 报告 足球

开源图编辑库 NebulaGraph VEditor 的设计思路分享

NebulaGraph

数据库 图数据库 知识图谱 NebulaGraph

秒云获得阿里云首批产品生态集成认证,携手共建云原生智能运维生态服务

MIAOYUN

智能运维 智能运维AIOps 阿里云产品生态集成认证

博云入选国家级专精特新「小巨人」名单!

BoCloud博云

云计算 容器 “小巨人”企业

从这 5 个 DevOps “恐怖故事”,我们能学到什么?

SoFlu软件机器人

风险价值量化术—互金爆发期的风控技术实践_安全_DataFunTalk_InfoQ精选文章