写点什么

未来十年大数据工程师即将失业?自动化建模平台已实现零基础建模

  • 2019-10-25
  • 本文字数:5133 字

    阅读完需:约 17 分钟

未来十年大数据工程师即将失业?自动化建模平台已实现零基础建模

人工建模需要花费很多时间进行数据预处理、模型选择、变量选择、调参、模型评估等,自动化建模将原本需要数周乃至数月的模型开发过程大幅缩短,甚至只需要几分钟就能找到最佳的模型。这样就可以在不同的业务场景中,针对不同的群体,快速建立大量不同的模型。飞贷金融科技即将在 11 月初上线公测其自动化建模平台,InfoQ 记者专访飞贷金融科技副总裁兼首席数据官林庆治,提前揭秘该平台背后的技术细节。


在日常的建模工作中,我们都或多或少会思考一个问题:建模可不可以被自动化?自动建模与机器学习的未来会如何发展?对于从事商业分析、数据分析、数据挖掘、数据工程、算法工程工作的人,可能也会焦虑,自动建模技术能在多大程度上代替现有的一些日常工作?它会完全取代现有的建模过程么?会有一部分人失业吗?本文将从自动化建模平台本身的痛点、技术细节、飞贷金融科技研发自动化建模平台的踩坑经验和思考,以及自动化建模的市场趋势和人才发展角度,给大家提供一些思考。

当下建模平台普遍存在哪些痛点

从建模本身来讲,它不是一件新鲜事,很多公司都在做建模,但问题一直存在,主要表现在:


首先,技术门槛高。十几年前,建模通常是顾问公司才能做,一般银行里是没有建模人员的,因为建模人员的技术门槛比较高,要求具备统计学背景、编程能力和购买比较昂贵的建模工具。所以很多公司没有建模人员的配置,只能使用顾问公司提供的建模平台。


第二,建模和处理流程复杂,工程量巨大。数据、模型等处理及搭建的工程量巨大,但在应用上却希望能快速从 1 到 N,因此必须具备快速开发能力。


第三,人员瓶颈问题。 可以做建模的人一般要求较高,需要懂算法、模型、数据、工具、效果等,必须是统计学出身,最好是有建模经验的专业人才,比如大数据工程师、数据科学家等,但目前该岗位人才有很大的缺口。


第四,“黑盒”模型难解释。 机器学习“黑盒”模型内部工作机制难以理解,导致实现不了多数监管机构要求提供的可解释报告及营销应用上的可解释与应用。如果金融机构想继续使用基于机器学习的解决方案,就必须对模型可解释性研究进行投资。



还有一个是现实与接受度的问题。林庆治提到,同样一个模型,很多人会认为顾问公司比银行做得更专业可信,如果领导也这么想,就导致一些公司很难自己去建模,即使建立了模型,使用起来也“担惊受怕”,往往最后以失败告终。

为什么我们需要自动化建模?

自动化建模提出之前,建模的流程可以概括为这样的一系列操作:为了在给定的数据集中实现当前最佳模型性能,需要使用者选择合适的数据预处理任务,挑选恰当的算法、模型和架构,并将其与合适的参数集匹配。遗憾的是,没有经验法则会告诉使用者在机器学习工作流中的每一步该怎么走,每一次选择都会生成一个模型。随着越来越多的模型不断地被开发出来,如何从众多模型中挑选最佳的模型也变得非常“棘手”。


从建模人员的角度面临的最大的一个问题是,如何快速地构建起一个质量相对不错的模型,以适应业务的快速发展。传统的风控建模周期较长,通常要数月时间才能达到上线的要求。其中,数据处理与特征工程的耗时在整个建模过程中会占到大约 60% 的时间,人工操作起来极具复杂性,需要经验法则,并且还要耗费大量时间;另一方面,真正建模耗时占整个模型开发的 30%~40% 的时间。这个过程的难点并不在于给出一个模型,而是在于同时比较多种模型甚至多种模型组合后,选出效果最佳的模型做主决策模型 (冠军模型)。这个过程如果用人工去实现,也会消耗非常多的时间,并且效果不一定最优。


虽然有些公司可能有专业的建模人员,但是人工建模需要先做数据预处理,然后选择模型,再做调试参数与模型评估等工作,这要耗费大量的时间。如果在有限的时间里要求建立大量模型,人工可能只能完成其中的 1/10,甚至更少。这就是为什么我们迫切需要自动化建模,因为当建模变得容易之后,需要大量人工介入的数据处理、模型选择、模型调参、超参数选择都可以用机器取代,建模人员可以把更多的精力放在模型调优、模型应用和制定决策上。


去年,开源的自动建模工具 Auto-Keras 发布,这是一个基于 Keras 的开源自动机器学习 Python 软件库。虽然这些开源的工具有其优点,但主要还是面向数据从业人员的建模工作。另外,还有一些公司已经开发出了一些半自动的建模工具。在这些工具上,建模人员可以通过输入一些参数,自己调试来完成建模任务。


还能更简单吗?简单到输入一些基本的数据、参数,就能实现自动化建模?答案是:能!


在采访飞贷金融科技副总裁兼首席数据官林庆治的时候,他提到自己一直在做与数据分析和建模相关的工作,所以深知自动化建模的迫切需求。由于飞贷也在做大数据与人工智能相关产品的 B2B 输出,所以他想到了做自动化建模平台,“因为自动化建模平台可以完美地结合大数据、人工智能应用与我在该领域 20 多年的数据建模经验。所以从去年开始我和我的技术团队就开始进行内部沟通,今年年初正式启动自动化建模和智能机器人的研发,一直做到现在,还在紧锣密鼓地内部测试中,希望在 11 月初可以正式对外发布测试。”

飞贷为什么要做自动化建模?

为什么飞贷要做自动化建模?林庆治解释,首先,从需求性来说,自动化建模平台无论是甲方还是乙方都有这个需求。从甲方的角度,无论是哪条业务线,比如信用卡、财富管理、互联网金融等,都是要基于数据去做模型分析,比如,在风险控制方面会做风控的模型,在营销方面会做营销的模型;从乙方的角度,因为市场上对于自动化建模是有大量的需求的,并且还在不断增加,这就让乙方开始关注自动化建模的工具和平台。


其次,飞贷为什么有能力做自动化建模?在以前如果要做一个好的建模工具,几个人的团队很难完成,但现在开源技术有了突破性的进展,建模方法论也发展得越来越标准化,尤其是 Google 提出了 AutoML 概念之后。随着开源技术和开源工具被广泛接受和使用,在建模上可以直接使用开源的工具做整合与开发,再利用自身技术团队的经验,不断测试和迭代,最终将其研发成一款产品。

飞贷自动化建模平台的创新设计

据了解,现在市面上主要有三种类型的厂商在做自动化建模:第一类是传统做 BI 分析的厂商,他们也想搭上自动化建模的列车,想要从传统的 BI 厂商转型。但这类厂商存在的问题是技术深度不够,对业务不了解,没有办法贴近用户的需求;第二类是由一些教授或者研究人员发起的、专门研究自动化建模技术的团队,从而成立一个公司去开发建模平台。


这类厂商的问题在于太讲究学术性、理论性,导致从用户体验的角度,门槛高,上手太难;第三类就是像飞贷这样,基于对业务的了解,提供 to B 的工具和平台。


飞贷一直有一个很明显的标签,就是既当过甲方,也做过乙方,所以其研发的自动化建模平台首先关注的是有建模需求的,但是没有那么高的技术水准的人,帮助他们也能实现快速建模。林庆治提到,“飞贷开发团队的人大都来源于建模工具的厂商顾问或业界建模人员,所以我们非常清楚建模里面的全流程,与市场上其他厂商最大的差异化就在于我们既是用户,也是开发者。”


飞贷做自动化建模平台,就是摸准了市场需求,又具备了足够的技术实力。所以,这事就成了。



飞贷自动化建模平台的第一版设定是有建模需求但不一定具备编程能力的人,只要他具备基本的统计分析知识,了解建模的原理和建模的流程,他就会很快速地接受该平台并上手,这就是低门槛。但低门槛不代表廉价,飞贷搭建的是一个全流程建模,并且该模型可以实现自学习,在某种程度上有点类似于 AI ,只要不断输入新的数据,该模型可以实现快速重新学习,不断优化,提升效能。


飞贷自动化建模平台的初步用户画像可分为两种:一类是小公司和个体,有建模和数据分析的需求,这类用户可以采用线上订阅的方式。另一类是中大型的银行、保险公司等持牌金融机构,可以采用租用或买断的形式使用建模平台。

飞贷自动化建模平台的踩坑经验

在问及飞贷研发自动化建模平台的踩坑经历时,林庆治提到,“飞贷金融科技的研发团队基本上都是甲方建模出身,所以非常清楚建模的流程、环节以及注意事项,但是当我们作为乙方去研发这样一款建模产品时,遇到的棘手的问题还是很多。”


首先是开源软件带来的不稳定性。 如前面所述,免费的开源工具确实极大地便利了自动化建模平台的研发,但与此同时,开源工具自身的不稳定性,也“折磨”着技术团队不断去调整,比如 Python、Spark 等,需要结合实际需要不断修正。


第二个是效能问题。 因为现在自动化建模,需要做大量的系统性自动化工程、例如特征工程、自动调参,这些工作本来就比较耗时间,一但数据增长翻倍之后,带来的系统负荷更大,怎么在精准性与效率上取得平衡,是现在面临的主要挑战。


第三个是如何做好差异化。如果研发团队只是把市面上的开源工具“包装”一下卖出去,各家的产品不会有差异化,也谈不上有市场竞争力。飞贷在一些核心的技术细节上做了调整或者去自主研发,特别是在特征工程与参数调优等方面,确确实实下了一番功夫。林庆治说:“差异化是自动化建模平台的核心竞争力之一,所以在关键的技术上,我们甚至请到了香港大学教授、业界比较有名的专家,针对核心的一些技术去做自主研发或调优。”

自动化建模技术成熟以后,数据科学家们会失业么?


知乎上有人提问,未来数据科学家的岗位需求是不是会越来越少?正如开篇提到的问题,对于从事商业分析、数据分析、数据挖掘、数据工程、算法工程工作的人,可能也会焦虑,自动建模技术能在多大程度上代替现有的一些日常工作?它会完全取代现有的建模过程么?会有一部分人失业吗?


基于对建模的了解,林庆治认为大家不必“杞人忧天”,自动化建模不会取代数据科学家的价值,恰恰相反,数据科学家的重要性只会越来越高。


首先,从总体需求的角度来看,企业对建模的需求只会愈来愈大。其次,从满足建模需要来说,自动化建模可以解决企业建模人才不足以及需要快速建模的需求场景,例如营销响应模型。但对于一些重要的模型或是复杂度高、需要调优的模型,还是需要有经验的数据科学家来完成。因此,自动化建模与有经验的数据科学家不是取代关系,而是相辅相成,各司其职。


如果自动建模技术真的渗透到我们工作中的各个领域后,基础的数据挖掘和算法工程师该如何体现自己的价值呢?


  • 增强对业务深度的理解与场景应用:虽然模型可以进行自动训练,但是理解业务需求、建议适用模型与模型的应用还是需要专业的建模人员来参与。

  • 建模知识体系的不断学习和建模经验的沉淀:能够不断学习新的建模理论,并从实际建模经验中沉淀出有用的经验法则是专业建模人员不可取代的价值。

飞贷自动化建模平台的未来发展的规划

自动化建模的市场其实早就“热流涌动”,只是还没有冒出头。目前这片市场还处于“鱼龙混杂”的局面。


一些有技术背景的人,比如他在谷歌、微软工作过,研究过建模工具,但是他没有业务背景,他不了解从使用方的角度会考虑哪些因素,这就导致他虽然也在做自动化建模,但是产品的完整度与应用性很低。一个好的自动化建模平台要从两个层面去考虑,一是站在客户(使用方)的角度,这个产品是否满足他的需求;二是有没有真正理解自动化建模的方法和精髓,是否用自动化建模的思维去做产品。


“其实我认为业界做得比较好的一款自动化建模产品是 H2O。”林庆治提到,H2O. ai 是初创公司 Oxdata 于 2014 年推出的一个独立开源机器学习平台,它的主要服务对象是数据科学家和数据工程师,主要功能就是为 App 提供快速的机器学习引擎。“但最大的问题是,它太贵了。对于创业公司或中小型企业的用户,很难承担起 H2O。相反,飞贷倒是一个不错的选择。”



在问及飞贷未来对于自动化建模平台的规划时,林庆治提到三点:


一是在产品版本上会更丰富。比如现在针对普通用户,做了“自动化版本”的建模平台;下一步会针对技术专家,做专家版本的自动化建模平台。从建模产品本身来看,会更加个性化,满足不同用户群体的需求。


二是增加不同类型的预测功能。现在自动化建模平台主要是在做分类性预测,比如预测这个人是好人还是坏人。但是在一些零售的场景下,会用到时间序列数据的预测。例如,一般零售厂商要考虑补货的问题,所以需要预测一些商品未来一周的需要,这就是时间序列预测。


三是扩大行业应用范围。目前自动化建模平台的主要用户是银行、保险公司等持牌金融机构,未来该平台的覆盖行业和规模会继续扩大,例如零售业。


嘉宾介绍:


林庆治,现任飞贷金融科技副总裁兼首席数据官。参与亚太区银行第一个大型数据仓库实施项目,启动银行数据驱动时代;在招商银行引进手机互动营销与智慧营销项目,支持招商在移动终端与实时互动营销上占得先机;在飞贷,完成大数据共享平台、机器学习平台与可视化平台三大应用平台建设,以及数据运营、数字营销、客户价值管理和客户洞察四大数据产品开发,支持飞贷在大数据科技与智能应用创新领域抢得先机。


2019-10-25 11:222358
用户头像

发布了 124 篇内容, 共 45.9 次阅读, 收获喜欢 176 次。

关注

评论

发布
暂无评论
发现更多内容

react源码中的hooks

flyzz177

React

react源码中的fiber架构

flyzz177

React

数字图像处理笔记

嵌入式视觉

数字图像处理 几何变换 低通滤波 图像锐化 高通滤波

信用卡APP评测系列:科技赋能信用卡APP创新升级,助力客户体验提升

易观分析

金融 信用卡

文末领资料 | 研发效能领域的三个年度关键词

思码逸研发效能

研发管理 研发效能

【等保小知识】等保四级是最高级别吗?等保四级适用于哪些领域?

行云管家

等保 等保测评 等保四级

华为云Stack新版发布:构筑行业云底座,共创行业新价值

华为云开发者联盟

云计算 后端 华为云 企业号 1 月 PK 榜

学术加油站|机器学习应用在数据库调优领域的前沿工作解读

OceanBase 数据库

数据库 oceanbase

开源共建|旺链科技与FISCO BCOS达成产业应用合作

旺链科技

区块链 开源 区块链技术

一文总结ACE代码框架

OpenHarmony开发者

OpenHarmony

react hook 源码完全解读

flyzz177

React

【等保小知识】等保3.0就是等保三级吗?

行云管家

等保 等保2.0 等保3.0

牛啊!长这么大还是头一次见24W字的SpringBoot从入门到实战文档

程序知音

Java spring 微服务 springboot 后端技术

火山引擎 DataLeap 通过中国信通院测评,数据管理能力获官方认可!

字节跳动数据平台

大数据 数据治理

HDI压合设计准则作业规范

华秋PCB

PCB PCB设计 HDI

TDengine 公布 2022 年度中国时序数据应用创新奖,33 个科技企业创新应用脱颖而出

TDengine

数据库 tdengine 时序数据库

ElasticSearch必知必会-基础篇

京东科技开发者

大数据 搜索引擎 数据分析 技术分享 Elastic Search

如何使用 Towify 在小程序中创建关联表?

Towify

Diffie-Hellman密钥协商算法探究

百度Geek说

数据安全 企业号 1 月 PK 榜

大咖说·对话开源|与Tapdata论道数据技术开放生态

大咖说

开源

总有一个你能用上的29个IDEA小技巧

风铃架构日知录

Java 程序员 IDEA IT 开发工具

硬实力,高潜力!旺链科技当选“2022德勤中国高科技高成长50强”

旺链科技

区块链 区块链技术

网页抓取中最常用的三大 Python 库

Geek_2d6073

创建好的小程序如何正式发布?

Towify

软件测试/测试开发 | AppCrawler 自动遍历测试工具实践(一)

测试人

软件测试 自动化测试 测试开发 自动遍历 AppCrawler

无监控,不运维!深入浅出介绍ChengYing监控设计和使用

袋鼠云数栈

3700万人在线见证梅西“圆梦”!火山引擎实力护航世界杯

火山引擎边缘云

云计算 云原生 CDN 边缘计算 火山引擎边缘计算

使用 NineData 高效编写 SQL

NineData

数据库 sql 数据库开发 数据管理工具 NineData

【Redis 技术探索】「数据迁移实战」手把手教你如何实现在线 + 离线模式进行迁移 Redis 数据实战指南(数据检查对比)

洛神灬殇

redis 1月日更 数据对比 Redis-full-check

要避免的自动化实践

FunTester

编程的终结;展望2023年AI系统方向;AI的下一个阶段

OneFlow

人工智能 深度学习

未来十年大数据工程师即将失业?自动化建模平台已实现零基础建模_AI&大模型_关贺宇_InfoQ精选文章