低代码到底是不是行业毒瘤?一线大厂怎么做的?戳此了解>>> 了解详情
写点什么

从 0 到 1 搭建 360 金融大数据风控系统:AI 做了什么?

2019 年 11 月 12 日

从0到1搭建360金融大数据风控系统:AI做了什么?

对于互联网金融行业并不算新鲜的大数据风控这件事儿,为什么 360 金融的做法可圈可点?AI 在其中做了什么?InfoQ 记者近日对 360 金融大数据总监苏绥进行采访,一探究竟。苏绥还将在AICon全球人工智能与机器学习技术大会上分享360金融的AI实践之旅,感兴趣的读者可以了解详情。


作为从 0 到 1 搭建 360 金融大数据风控系统的负责人之一,苏绥在 360 金融的履历,首先让我们感兴趣的,就是他加入 360 金融的那一年——2017 年,发生了什么?是什么原因促成 360 金融决定建设大数据风控?于是我们的采访,就从那时开始倒序。


在苏绥看来,2017 年他加入的时候,360 金融在传统风控上其实做得不错。“公司在上海已经搭建了一个完整的风险管理团队,覆盖反欺诈、贷前、贷中及贷后管理等环节。核心成员主要来自于招行、交行等国内头部持牌金融机构,他们在传统风控方法上有丰富的实操经验。从结果上来看,做的也非常优秀——360 借条从 2016 年 9 月上线伊始,其风险水平就处于行业领先水平。”


但是公司当时遇到这样一个问题——随着客群的不断下沉,批核率一直上不去,低批核率直接导致公司只能服务优质客群,从而将更多征信白户拒之门外;另外低批核率导致获客成本增高,影响公司业务的规模增长。


当时大数据及云计算在搜索推荐、广告变现方面取得显著效果,不少互金公司也开始尝试将大数据引入风险管理中并且取得了实质性效果提升。因此 360 金融决定成立数据智能部,探索 AI、大数据、云计算等技术在金融场景上的应用,而大数据风控是最重要的方向之一。


大数据风控的三个阶段

到目前为止,360 金融大数据风控系统经过了三个阶段的迭代:


从零到一搭建系统

第一阶段是 2017 年年中到 2018 年年中,从零到一搭建系统。在苏绥看来,“这个阶段也是工作量最大的阶段。”


首先也是最重要的,是要准备足够的带标签样本,对不少小机构来说,这个门槛很高——因为真实坏样本的获取需要真金白银的投入。有了样本之后,剩下的大部分工作就是加工特征。这其中有一些需要特别注意之处:


  • 不同三方数据源的覆盖率差异较大,分布可能有偏,且个别数据源稳定性不好;

  • 有不少时间相关变量,相关性很强,但容易随时间偏移,影响模型的稳定性;

  • 异常取值很多,需要做处理;

  • 默认值的处理,比如未查、未查得、异常等取值的区分;

  • 此外,工程化也同样重要。风控系统直接和钱打交道,审批结果直接影响放款,系统的异常处理就显得格外重要。


完善功能

第二阶段是 2018 年年中到 2019 年年中,是功能完善阶段,在这个阶段 360 金融做了三件事情。


首先,搭建特征及自动建模平台。在风控模型的迭代过程中,大部分时间都消耗在特征相关的工作上了。为了提升这部分工作效率,360 金融搭建了一个建模和特征分析平台,将特征的分析(比如查看特征的取值分布与逾期的相关性等)、新增特征、特征组合分析等工作简化。此外,还提供很多配套工具,可以将模型的评估等工作自动化,提升建模人员的工作效率。


其次,复杂关系网络的应用探索。这其中包括图表征(Graph Embedding)、社交网络分析、基于聚类、社区分算等无监督算法的团伙识别等。


另外,A/B test 机制。虽然第一阶段已经支持多套策略,但实现方式不灵活,每次上线实验需要不少代码开发量,效率较低。因此这个阶段 360 金融重新设计了系统实验框架,日常大部分的测试实验(包括上线新模型)都可以通过配置化方式完成,迭代周期大幅缩短。


“效率的提升非常重要,更好的效率意味着大家有新的想法可以尽快验证,我们平均每周都有 2-3 个实验上线,虽然有些实验很简单、影响面很小,但是这样就可以让系统快速的进化。与之形成鲜明对比的是,传统风控中用的主模型更新周期较长,一般超过半年。”


系统进化

第三阶段是 2019 年年中到现在,是系统的进化阶段。苏绥表示:“虽然目前我们刚进入这个阶段,但是未来的优化方向有 AutoFeature、端风控(隐私保护的机器学习)、增强学习/迁移学习等方法的应用探索等事情可以做。”


在这三个阶段历程中,苏绥认为有很多难忘的事情,比如系统第一笔放款,比如第一次故障,再比如第一次服务超过百万用户…但是最难忘的,可能就是国家相关监管机构 2017 年 12 月 1 日下发的《关于规范整顿“现金贷”业务的通知》了。


“随着监管的尘埃落定,市场一片哀鸿。监管同时对征信数据使用规范有了更明确严格的要求,不少征信数据提供方的接口做了调整,导致我们的系统也需要做不少改造,这个对团队有不小的打击——当时我们第一版系统的风险表现数据刚回来,数据还不错,正打算要放量,这个必须的系统改造工作,意味着我们要重训模型——之前的测试结果徒劳了,重新验证新模型效果又需要几个月的时间。”在苏绥看来,这次“出师不利”让大家有点儿灰心。


好在团队及时调整心态,用一个月时间完成了所有的改造工作,包括重训模型、接口改造等诸多事宜。2018 年 1 月初,新版系统重新上线测试。


大数据风控各环节深度使用 AI

其实大数据风控对于互金来说,并非新鲜事。360 金融在大数据风控系统建设上最大的特点是什么呢?苏绥表示:那就是在风控各环节深度使用 AI 等相关技术。


反欺诈能力

对于 360 金融来说,360 集团在安全上的优势可谓得天独厚:集团有市场上最大的灰黑产名单库;有市场上最全的钓鱼、欺诈、赌博等名单库;有市场上最强大的防盗号等安全技术。


此外,360 金融还将无监督算法及复杂网络算法应用到反欺诈识别上:


首先,利用谱聚类、社区发现等算法识别团伙欺诈。团伙欺诈是反欺诈绕不开的难题,往往在展业初期会对业务造成很大冲击,这些组织有大量的灰黑产资源,熟知各家反欺诈防范惯用手段,常规的黑名单等策略很难凑效。


其次,构建一个大规模关系网络,有超过 20 亿的节点,百亿的边,可以用社交网络分析方法提取很多有用特征值,帮助平台找到疑似欺诈案件。比如用户 A,他的一度、二度关系网络中聚集了大量的欺诈者,且与这些人联系紧密,那么用户 A 的潜在风险很高。再比如用户 B,他的一度关系中有很多高净值用户,那么用户 B 高概率是个好用户。


在苏绥看来:”反欺诈是一个系统工程,需要多维度联合防控,包括但不限于实时环境评估、异常行为检测、社交网络分析、身份异常识别、还款意愿评估等方面。如果有某个环节有明显漏洞,很容易被打穿,要知道欺诈者大都是专业人士。“


语音机器人用于贷后催收

据苏绥介绍,360 金融是国内最早将语音机器人应用于贷后催收的公司之一。360 金融的语音机器人从立项到产品上线仅用三个月,产品上线后节省了 70%以上的人力,还直接带来投诉率的降低。


100%语音质检覆盖

与搜索、电商、信息流等业务相比,金融是一个”人工坐席”密集型的业务,客服、电销、催收等多个环节均需要与用户(语音)沟通,如何保证服务质量?传统的做法是招聘一个质检团队,人工抽样部分录音检查是否有问题,其弊端显而易见——效率低;此外,无法保证暴露所有问题;另外,人工抽检本身也可能存在质量问题。针对这个问题,360 金融搭建起一套全自动化的语音质检系统,不仅做到 100%覆盖,借助于关联规则等无监督算法,系统还可以自动发现很多人工无法检出的问题。系统上线后,人工质检员的能效提升了 3 倍,投诉率下降 10%。


高自动化过件率

刚开始,不少进件申请因为置信度不够等原因转入人工进行核实,不仅成本高,且需要用户等待较长时间,导致体验不够好。针对这个问题,360 金融尝试引入复杂模型用于风险评估,比如复杂关系网络、无监督算法等,区分度有大幅提升。不仅提升了自动化过件率,而且还能捞回更多用户(提高了批核率)。


大数据风控应该遵循三大标准

在苏绥看来,虽然行业里有不少公司在对外宣讲大数据风控,但实际上仅仅是把机器学习(最典型的就是 GBDT、Xgboost 等树模型)应用到 ABC 卡的建模中,替代传统评分卡。虽然这样做也能带来一些收益,但远远不够,真正的大数据风控应该满足以下标准:


大量特征数据

”举个例子来说,比如银行等持牌机构,他们通常只能拿到交易流水和征信报告等少量强金融属性变量,这种情况下也许用评分卡就够了,用大数据风控的方式收益不一定大,还会牺牲一定程度的可解释性,不一定划算。但是互联网公司就不一样了,他们有大量的用户行为日志,这些数据经过处理可以衍生出成千上万、甚至几十万的特征维度,这些特征单独拿出来都不强,但组合起来可能非常有效。此外这些数据很难造假,对欺诈防范有很大的益处。对于这种场景,用传统风控那套做法就玩不转了,只能用大数据风控。“


强大计算能力

因为大数据风控要处理大量数据,且对时效性要求较高,因此势必要求系统底层有强大的运算能力。对此苏绥介绍:”2017 年底在将用户行为日志引入反欺诈识别时,我们基于 kafaka+Storm 搭建了一套实时数据流系统,可以做到数据秒级更新,这样能最大程度降低数据延迟,可以识别一些短时、集中性的团伙欺诈。但搭建这样的系统,前期需要较大的资源投入,门槛较高,很少有公司愿意这么做。“


稳定的三方资信数据

在一般互金公司展业过程中,或多或少会依赖于第三方资信数据。近年来,这个市场受政策监管影响比较大,不少数据源被叫停,直接影响模型的稳定性和可用性。相对传统评分卡来说,大数据风控模型的迭代周期较长,需要经过样本选取、特征清洗、建模、效果评估、稳定性校验、部署上线等诸多环节,一般情况需要 1-2 周时间。此外,由于模型可解释性差,离线很难评估上线后的实际风险表现。


针对于此,苏绥认为 360 集团的海量数据及技术对于 360 金融来说是一种支持。”针对三方资信数据的稳定性问题,我们采用的方案是线上同时运行多套模型和策略,一方面相互作为灾备方案,在一套策略失效的情况,自动切换到其他策略,保证系统的稳定性;另一方面,我们也通过这种挑战者机制,对比不同模型间的效果差异,从而不断的提升系统效果。“


逾期率行业最低背后的原因分析

在此前公开场合,苏绥曾经表示:在已经上市的金融科技公司中,360 金融的逾期率是行业内最低的。这一成绩的背后,大数据风控都贡献了什么?苏绥认为:如果用一句话概括大数据风控的贡献,应该说是模型区分度更好,所以能给用户更合理的额度和定价,这一点至关重要。


”对于同一个人,你给他 1 万额度,他会正常还款,但如果你给他 20 万额度,也许就会逾期了——— 我们每个人都会对自己的虚拟信用做一个实际价值量化。从指标上来说,大数据风控系统上线后,批核率在原来的基础上提升近 50%,远高于行业平均水平。


在这其中 360 金融的特色在于:


第一,正如前文所说,将 AI 技术应用到用户生命周期的各个环节。


第二,构建用户多维度 AI 画像。360 金融用机器学习技术构建用户多维度风险画像,内部称之为“AI 因子库”。



  • 用模型去量化用户的"多头恶化指数",即预估未来一段时间内用户多头的变化速率。“举个例子,用户 A 和 B 在申请的时候多头均只有 2 次,但 A 在未来三个月内多头激增到 10 次,而 B 较稳定只有 3 次,这反应出 A 在短时间内有大量的资金需求,即资金饥渴型,那么用户 A 在未来变坏的可能性是要远大于用户 B 的。有了这种量化指标,在申请的时候我们就可以针对这类型客群做定制策略,比如给这部分人较低的额度。”

  • 用模型去量化用户的长期价值贡献(Lift-Time Value,简称 LTV)。

  • 将生存分析概念引入到风险管理中,为此 360 金融提出 GBST 算法概念(Gradient Boosting Survival Tree,基于梯度提升的生存树,简称 GBST),更好预估用户分期借款以后各期的存活概率,从而做到更精准的损益分析及贷中预警。


第三,传统风控与大数据风控的融合。苏绥一直认为传统风控与大数据风控不是完全对立的,很难说孰优孰劣。“360 金融成立了两个风控团队,一个偏传统风控,一个偏大数据风控,大家各有侧重,相互协作———传统风控的定额、定价机制对大数据风控有很大参考价值;大数据风控可以对人群做更精准的画像。另一个优势在于,二者相互提供‘拒绝推断’的样本,顺带解决了困扰信用评分领域多年的问题。所以二者融合的效果最佳,目前越来越多的机构在做这方面的尝试。”


第四,产品、风控、运营的协调与统一。这是老生常谈的话题,不仅需要几个部门间的协同,也需要从公司组织架构上做顶层设计。


布局未来风控系统三方面重点工作

在采访过程中我们了解到,360 金融是非常重视研发投入的。据了解,研发人员比重超过 48%,风险管理团队人员超过百名,苏绥所在的数据智能部规模接近百人。


从风控角度来说,苏绥团队接下来的工作重点有以下几点:


存量用户的精细化管理。“我们有超过 1.2 亿的注册用户,2000 多万借贷用户,未来如何服务好这些客户就成了重中之重。”目前主要思路有:提高用户留存;用户长期价值提升;不同风险客群的差异化经营。


端风控(隐私保护的机器学习)。 随着国家对隐私安全的监管力度加强,未来手机端上的很多数据不能采集。一个方案是端风控,即将风控模型私有化部署到用户手机上,在满足业务场景需求的同时,最大化保护用户的隐私。这方面国内有些头部公司已经在做尝试,比如微众银行的联邦学习,蚂蚁金服的共享学习等。


完善系统架构、灵活适配多种流量渠道、灵活应对不同数据源的缺失。目前 360 金融的系统主要基于自有 APP 渠道进件来搭建,但未来流量渠道会发生变化,H5、小程序、API 对接等形式在不断增加,由于不同渠道可以采集的数据差异很大,这对于风险评估,尤其是反欺诈工作带来很大挑战。


嘉宾介绍:


苏绥,现任 360 金融大数据总监,负责大数据风控系统及语音机器人等 AI 技术在金融全场景的应用落地。曾就职于阿里、百度,从事 Query 理解、搜索相关性、对话系统等方向的技术研发工作,在搜索、广告、对话机器人领域有多年的实战经验。2017 年初加入 360 金融,从 0 到 1 搭建 360 金融的大数据风控系统,日均放款过亿。从零组建语音外呼机器人团队,产品已经在营销获客、贷后催收等领域有广泛应用。


福利时刻:


苏绥老师将在 11 月 21-22 的AICon大会上带来更多关于知识图谱的精彩分享,想要跟苏老师深入交流的,不要错过面基的机会。另外,大会还有关于机器学习、NLP、搜索推荐、智能金融等 50+最新落地案例,更有来自 AWS、微软、BAT、华为等国内外一线 AI 技术专家带来干货演讲,部分议题抢先看:


【蚂蚁金服】金融知识图谱在蚂蚁的业务探索与平台实践


【菜鸟网络】人工智能在智慧交通物流的技术演进之路


【阿里妈妈】工业级深度学习在阿里广告的实践、创新与最新进展


【微软小冰】人格化对话机器人的构建及在语音场景当中的实践


【百度】AI 大生产时代下的 NLP 技术创新与应用实践


目前大会售票倒计时一周,购票页面输入优惠码“aicon”还可享折扣价,抢票咨询:18514549229(同微信)


2019 年 11 月 12 日 10:432630
用户头像
张晓楠 InfoQ总编辑

发布了 144 篇内容, 共 69.7 次阅读, 收获喜欢 355 次。

关注

评论

发布
暂无评论
发现更多内容

小师妹学JavaIO之:文件写入那些事

程序那些事

Java io nio 文件管理

ARTS Week2

姜海天

ARTS 打卡计划

iOS 动画 - 窗景篇(二)

柯烂

ios objective-c swift 动画 移动

食堂就餐卡系统架构设计

Raymond

小师妹学JavaIO之:File copy和File filter

程序那些事

Java Linux 多线程 io nio

架构师训练营第一周总结

Raymond

陈虻语录(摘)

YoungZY

读书

小师妹学JavaIO之:文件系统和WatchService

程序那些事

Java 监控 io nio 文件管理

Intellij IDEA 常用快捷键

insight

小师妹学JavaIO之:文件编码和字符集Unicode

程序那些事

Java io nio 文件管理

最全干货:从写简历,到面试、谈薪酬的那些技巧和防坑指南

四猿外

深度思考 程序员 个人成长 面试 求职

数据中台各种架构图

久吾尔岂

数据中台

读笔 | 迷茫期问问自己这三个问题

张鸱鸺

读书笔记 个人成长 心灵圣经

架构师训练营--第一周学习总结

花花大脸猫

极客大学架构师训练营

软件架构基础

dapaul

架构 架构师 极客大学架构师训练营

ARTS-weekly-32

落英坠露

ARTS 打卡计划

写简历没模板?别怕,这些开源项目帮你搞定!

JackTian

GitHub 面试 求职 开源项目 简历模板

第一周总结

森林

食堂就餐卡系统设计

J.Smile

极客大学架构师训练营

架构师训练营--第一周作业

花花大脸猫

极客大学架构师训练营

学习总结-第1周

饶军

重学 Java 设计模式:实战组合模式(营销差异化人群发券,决策树引擎搭建场景)

小傅哥

设计模式 重构 代码质量 代码坏味道 组合模式

作业:食堂就餐卡系统UML图

Dawn

极客大学架构师训练营

ARTS week 3

锈蠢刀

架构第一周-学习总结

J.Smile

极客大学架构师训练营

就餐卡系统设计

满山李子

小师妹学JavaIO之:文件读取那些事

程序那些事

Java io nio 文件管理

阿里《Java开发手册》也有bug?

王磊

Java 性能优化 Java性能

这个神器让你拥有最佳的打印阅读体验

非著名程序员

chrome 程序员 效率工具 插件

架构师训练营-第一周学习笔记

Dawn

极客大学架构师训练营

恕我直言,我怀疑你并不会用 Java 枚举

沉默王二

Java 枚举

2021 ThoughtWorks 技术雷达峰会

2021 ThoughtWorks 技术雷达峰会

从0到1搭建360金融大数据风控系统:AI做了什么?-InfoQ