AICon议程上新60%,阿里国际、360智脑、科大讯飞、蔚来汽车分享大模型探索与实践 了解详情
写点什么

度小满金融大数据风控模型实践

  • 2020-12-11
  • 本文字数:4118 字

    阅读完需:约 14 分钟

度小满金融大数据风控模型实践

导读:金融是 AI 赋能传统行业的重要赛道。本次分享的主要内容为金融大数据风控模型在度小满金融的实践。主要介绍金融大数据风控模型的主要技术方法与在应用层面的主要问题,并结合新冠疫情背景下,探讨下风控模型的发展。


金融大数据风控模型的技术方法


1. 风险管理中的金融科技



风险管理中的金融科技主要包括两个方面:


一方面是传统金融的风险管理,包括:


  • A 卡(Application Scorecard,申请评分卡)

  • B 卡(Behavior Scorecard,行为评分卡)

  • C 卡(Collection Scorecard,催收评分卡)


三张评分卡,是传统金融科技中的一部分。


另一方面是信息技术,包括:


  • 算法算力的大幅度提升:A(Artificial Intelligence,人工智能)

  • 用户的行为数据数字化的存储和挖掘基础:B(Big Data,大数据)

  • 强大的资源服务共享能力:C(Cloud,云服务)


利用信息技术能力能够有效提升传统风险管理评分卡建模的效果。


2. 度小满信贷风险



在度小满信贷业务发展过程中,积累了大量数据和模型相关的实战经验。下面主要介绍关于信贷风险模型在度小满的实战经验。如何去识别信用风险,其核心关键点在于识别借款用户真实合理的资金需求以及评估用户是否拥有较好的还款意愿和能力,主要包括三个方面:


  • 底层需要的是用户基础画像信息,主要包括用户的年龄、性别、学历、婚姻状况、职业、收入、消费能力、房车等资产以及相应的历史信用信息,金融相比于电商等领域对基础画像的准确度等更为严格,因其涉及了用户真实的还款能力。

  • 中层为用户的基础行为需求模式,主要是用户当前资金端行为往往与前一段时间内的行为存在较大的相关性,通过这些行为可以预测用户的真实资金需求以及未来的还款表现。

  • 顶层为用户的社会活动,即“物以类聚,人以群分”,通过关联网络中的聚集性发现欺诈团伙,同时可以发现与还款意愿差关系紧密的人逾期的风险更高,而与还款行为好的用户关系密切的人逾期风险相对较低。


核心而言,利用用户的基础画像、行为需求,外延到用户社会活动去挖掘用户是否有真实合理的资金需求,是否有较好的还款意愿和还款能力,从而建立区分度良好的风险模型。


3. 时间序列的处理:贷前



信贷业务通过用户授权获取征信报告,基于征信报告了解用户的信用历史,通过分析用户的行为时序来理解用户的真实现金流需求。


  • 常见的征信查询包括信用卡审批、贷款审批等,此类查询表征了用户在该时刻的资金需求,通过征信报告中贷款发放情况匹配贷款查询申请时间,可以分析用户资金的用信行为。传统金融行业常利用诸如基于不同时间滑动窗口的加工逻辑方式去进行统计,包括过去一个月三个月、六个月、十二个月,二十四个月征信报告查询次数等、过去一个月、三个月贷款发放笔数等指标。

  • 征信报告还包括用户的公司地址变更、公积金变更等信息,将上述信息基于时间轴进行划分,就可以对用户在一段时间内的信贷需求和用信情况进行刻画分析。我们利用深度神经网络去进行分析,通过记录时间点、该时间点的动作、该动作的类型以及该动作的多个特征值,将每一项信息转为 Item 作为输入提供给 LSTM 单元,获取该单元的输出同时又作为下一个时间序列的输入,不断学习从而获得更好的信息表达。


相比传统方案,基于这类机器学习的方案能够带来 KS 2 个点的提升。


4. 时间序列的处理:贷中



信贷贷中行为数据主要用于 B 卡的建模,在整个客户生命周期线上,用户存在不断借钱、还钱的循环往复行为。基于此,在每个动作发生的时间切片上,可以生成诸如总额度、剩余本金、本次动作类型、本次金额、距离下个还款日多少天、下个还款日应还金额、剩余日均应还金额、提前还款次数、逾期次数等特征,将这些特征组织成 item,通过各类 RNN 网络能够显著提升 B 卡的能力。


5. 文本类数据处理



互联网行为数据除了结构化数据外,还存在许多非结构化数据,诸如文本类数据。传统金融的很多数据都是数值类的数据,类似收入水平等变量,这些数据一般具有置信度高、分辨率强的特点,而互联网数据则有数据规模大,数据杂乱,且分辨力较弱的特征。传统文本处理的方式一般对文本特征进行排序,构建全连接层深度网络 DNN,这种处理方式强依赖于文本的顺序,会存在稀疏性、泛化能力弱等缺陷。我们参照 Attention 机制的核心思想,关注每个信息单元在整体中的重要度α,由于α是基于信息单元集合实时计算得到,依赖于 Input 但与 Input 的顺序无关, 所以特别适用于那些原本就没有顺序依赖关系的文本内容集合。基于此框架,该方案无需关注文本特征的顺序,这对于整个模型的特征处理逻辑上而言是非常友好的,通过不断提供新的数据,能够让模型网络更加灵活高效。


6. 关联网络



图在金融科技侧的应用十分广泛。对于图在度小满的落地应用,和传统构建图的方式相同,通过构建密集网络主要包括三个方面的输出:


  • 为构建该网络的邻居属性,包括一度、二度、三度网络,这些网络都是可见的;

  • 为对图网络的分群,利用节点之间的紧密型基于网络的分类去计算群内的相关参数特征信息;

  • 为对图进行深度卷积神经网络,利用一度用户特征结合用户自身特征进行卷积,然后推广到二度、三度邻居信息,在此基础上构建全连接层进行有监督学习。


单一应用方向对识别信用风险可能较弱,但通过三种方式的组合,能够显著提升模型的风险识别能力。


金融大数据风控模型应用层面的问题


1. 模型可解释性



信用风险的核心即构建一个二分类的模型,而可解释性是策略同学应用模型的一个重要诉求。一个可解释的模型主要有以下三个方面的特点:


  • 该模型的函数表达简单,一般为逻辑回归;

  • 输出特征 X 与预测 Y 变量强相关,符合普遍认知;

  • 核心模型变量不需要特别多,一般不超过 20 个;


而常见的互联网金融模型方案为 XGBoost,它的特点是模型非线性,特征规模大,解释性差。为了实现模型的高可解释性,我们常用的方案是将底层的高维变量按其来源进行分类,先利用复杂模型进行加工形成子模型特征,主要有以下几个方面:


  • 利用用户的各类 APP 行为数据输出兴趣分、文化分等;

  • 利用用户的大量支付消费数据输出收入分、消费分等;

  • 利用用户的大量位置移动数据输出工作分、稳定分等;

  • 利用用户的外部共债信息数据输出多头分、信用分等;

  • 利用用户的详细征信报告数据输出信用分、负债分等;

  • 利用用户的大量运营商数据输出欺诈分、信用分等;


基于上述多个子模型评分,再利用逻辑回归或简单决策树构建最终的模型。由于每个低维变量评分和人的认知接近,且与风险有很好的线性相关性,整个模型就有了很好的解释性。同时,对模型质量的监控也变得更加容易了。当模型出现问题时,可以很容易定位到可能出现问题的子模型分,然后再依据子模型评分去寻找对应的底层数据的异常。


2. 概率标准化



不同概率水平的样本进行训练,得到的模型预测均值差异较大,这对策略应用的同学带来很大挑战。基于此,我们需要对不同的模型修正对齐真实的不良率,具体步骤如下:


  • 按预测值排序分段,如 100 段;

  • 对每段的真实逾期率取 logit;

  • 对每段内的所有预测值取 logit 后求平均;

  • 尝试一次或二次曲线拟合该散点图;

  • 参考诸如 FICO 的评分方式进行转化信用评分。


经过上述标准化后,模型与样本数据集或样本不良率无关,模型的升级就对策略、业务同事更加透明。


3. 评分稳定性


评分稳定性包括分布稳定性、性能稳定性以及微观层面的稳定性三方面:



  • 分布稳定性:指的是将用户评分分段排序后按月进行统计,符合正常的正态分布情况,各个分数段的人数占比各月较为稳定,即整个客群的质量未发生较为明显的变化;

  • 性能稳定性:指的是将用户不良率分段排序后按月进行统计,能够满足各个分数段对应的人数不良率稳定;



  • 单一用户评分的稳定性:若用户存在新的借款、放款行为,则未来贷款风险会提高;若用户还清所有贷款,余额为 0,则未来一段时间内风险会降低。模型对于用户短期行为反应较为灵敏,虽然整体客群排序稳定,但对于单一具体用户而言,各月之间的评分波动较大,策略就会难以管理。从策略层面上而言,模型不论是整体还是局部方面,都希望其稳定性较高,以便于对用户的评价相对稳定,这样才能更好地进行客户管理。


新冠疫情背景下,风控模型的一些探讨


1. 疫情影响



新冠疫情是对业务、策略、模型一次很好的压力测试;以前面的用于评估稳定性的图示来看,主要表现在受疫情影响的多个时间窗口下绿色、黄色下沉,该图示包含了以下三个方面的信息:


  • 模型风险预测的排序性可以继续保持(色阶图的颜色块顺序依然保持)

  • 模型风险预测的稳定性变差(同样高度位置的颜色不一致了)

  • 风险原先处于中间地带的客户,不良率上扬幅度最大。(中间地带的绿色变成了黄色(黄色的风险值>绿色))


疫情归根到底其实是对客户、风险模型、策略的一场考验。


2. 疫情对模型的影响和挑战



疫情并不会改变用户的特征 X,但在疫情下同样 X 对应的 Y,即风险水平则会显著上升。在实际业务场景中,我们观察到诸如多头类变量最为明显。有一些思考和探索供参考:


  • 宏观环境的影响是否有特征变量可以表达?疫情必然对用户的收入会造成一定影响,那么是否有很灵敏的变量可以反映这部分信息?比如行职业、复工复产数据对收入进行修正?

  • 未来模型训练的样本中,是否需要包含疫情下表现的样本?当前训练的样本为非疫情下的样本,随着时间推移样本的更新,模型就面临是否需要包含疫情期下表现的样本。,这块需要评估下疫情对整个金融环境的影响是否可逆,若疫情为短期,可以考虑直接跳过这些样本数据;若疫情为长期,则需要将疫情作为常态进入模型的训练中了;

  • 当前模型应用中,策略如何基于疫情的发展进行修正?这需要模型和策略基于疫情发展的长期或短期性在实践中进行探索迭代。


问答环节


1. 什么特征可以反映疫情下的宏观经济情况?


答:这是一个极为有挑战性的问题,在我们实际业务应用发展中,复工指数对整个资产模型的贡献度较高,其实际与用户的收入存在较为强的联系。从隐私的角度很难拿到用户的收入情况,在实际应用中,我们通过位置迁移来推测用户的复工状态。


2. 对比高维变量入模效果与分开计算模型效果?


答:高维变量入模和分开入模 KS 偏差幅度在 0.5%左右,并不能说高维变量直接入模就一定好于分开入模,不同模型有±0.5 的不同表现。从整体的角度来看,我们认为结果差距并不是特别大。高维变量入模缺点在于参数较多,对数据质量监控有一定的难度,发现问题较难且可解释性较差。


本文转载自: [DataFunTalk](ID:datafuntalk)


原文链接:度小满金融大数据风控模型实践


2020-12-11 16:007586

评论

发布
暂无评论
发现更多内容

怎么"黑"了ChatGPT?

Bob Lin

人工智能 openai ChatGPT GPT-4 #LangChain

2023 年最受欢迎的 12 款 Chrome 浏览器扩展

南城FE

前端 浏览器 Chrome Extension

关于DDOS,有什么方法解决

德迅云安全杨德俊

DDoS 服务器安全 游戏安全 网站安全

Photoshop Elements 2020 for Mac(图形处理软件) v18.0(2020.01.20)永久激活版

mac

苹果mac Windows软件 Photoshop Elements 2020 图形处理工具 ps elements

机密计算容器前沿探索与 AI 场景应用

阿里巴巴云原生

阿里云 容器 云原生

全面的开发者文档和用户目标解析:API 文档指南和开发者旅程

小万哥

程序人生 软件工程 后端开发 API文档 技术写作

AI元年:一名前端程序员的技术之旅

Serenade

#前端

从学习到实践——火山引擎多媒体处理框架BMF的深度探索

熬夜磕代码、

基于 ACK One 实现简单的跨云协同,让业务管理更高效

阿里巴巴云原生

阿里云 容器 云原生

基于阿里云服务网格流量泳道的全链路流量管理(二):宽松模式流量泳道

阿里巴巴云原生

阿里云 云原生 网格

直呼过瘾!这本编程书真是进阶必备

Jackpop

阿里云 ACK 新升级,打造智算时代的现代化应用平台

阿里巴巴云原生

阿里云 容器 云原生

Eagle for Mac(图片管理工具) 1.9.2永久激活版

mac

苹果mac Windows软件 Eagle 图片素材管理软件

FlowJo 10 for Mac特别版:流式细胞分析的强大助手

iMac小白

国内版免费ChatGPT,太好用了!

Jackpop

大学生电脑里的必备软件有哪些?

Jackpop

Parallels Desktop 18 for Mac破解版:丰富的特性和便捷的体验

iMac小白

架构决策的弹性

agnostic

架构决策

Compressor for Mac(视频转码工具) 4.7永久激活版

mac

windows 苹果mac Compressor 视频压缩和转码软件

GraphPad Prism 10 for Mac(统计分析绘图软件) v10.0.0.3注册激活版

mac

苹果mac Windows软件 GraphPad Prism 统计和绘图软件

Keka for Mac激活版下载:轻松解压缩,畅享文件管理

iMac小白

度小满金融大数据风控模型实践_大数据_DataFunTalk_InfoQ精选文章