HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Guagua:PayPal 的 Hadoop 迭代式计算框架

  • 2014-07-29
  • 本文字数:1648 字

    阅读完需:约 5 分钟

如何利用大数据训练风险控制的数学模型一直以来都是 PayPal 在欺诈交易检测的挑战。PayPal 在风险控制模型训练上大致经历过四个阶段:

  1. 决策树:早期 PayPal 使用简单的决策树模型,主要是由于早期的模型训练的数据量比较小,决策树模型的结果易于解释。
  2. 逻辑回归:当 PayPal 的业务越来越复杂,分控模型也随之越来越复杂,使用逻辑回归可以很容易的处理更大的数据量以及更多的特征;而且 PayPal 的线上风控服务可以快速实现这些逻辑回归的数学模型。
  3. 神经网络:为了弥补逻辑回归特征数量的限制,PayPal 使用了神经网络来训练特征值达到上千个的数学模型,但是由于没有分布式的训练框架和产品,训练数据一直受到单机的限制。
  4. 分布式的神经网络和逻辑回归:Hadoop 迭代式计算框架 Guagua 出现,解决了大数据的分布式训练问题,这样 PayPal 的所有风控数学模型不再有单机的数据限制,而且目前支持的最大模型的特征数量已经超过了 2500 个。

其中,Hadoop 迭代式计算框架 Guagua 是 PayPal 的一个开源机器学习框架 Shifu 的子项目,已经于今年四月开源

张彭善是PayPal Risk Data Science 部门的研发工程师,在PayPal 一直致力于使用Hadoop 解决风险控制数学模型的特征提取、训练及验证等工作,是Shifu 和Guagua 的主要开发人员。InfoQ 中文站编辑近日对张彭善进行了采访,了解这个框架的开发背景和应用状况。

InfoQ:首先问一下,这个框架为什么取了 Guagua 这个名字?

张彭善:这个名字的得来其实很随意。去年公司装修期间,我在家开发 Guagua 的时候,苦于没有一个合适的名字,我随手翻了本我儿子平时比较喜欢的一本故事书,看到上面一只小鸭子叫“呱呱”,我当时随手就用了这个名字。后来等到 Guagua 成型,一直想换一个名字,但是那时 Guagua 在公司内部已经有了很大的知名度,而且我的同事帮我设计了一个非常漂亮的 Logo,Guagua 就一直沿用至今了。

InfoQ:风险控制训练的业务特点是什么?

张彭善:风险控制数学模型的主要特点是训练数据量大、模型特征多、模型通用性低等等。

InfoQ:其训练的算法有什么样的特点?业内都有哪些公开的或者你了解的方法,各自有什么特点和不同?

张彭善:它的训练方法和其它的分类问题并没有太多不同,唯一比较大的不同是如何利用大数据来训练数学模型。业内有很多相关的算法,决策树、逻辑回归、神经网络、SVM 等等,但是主要都是单机实现。即便是 Apache Mahout 也并没有把分类模型的分布式做好(Mahout 中逻辑回归和神经网络均为单机算法)。

InfoQ:为什么要开发 Guagua?换句话说,Guagua 为什么是更适合你们业务特点的框架?

张彭善:在 PayPal,Guagua 主要解决的是机器学习分类模型的分布式训练问题,以往我们并没有分布式模型的训练框架或者产品,我们只能通过抽样来把我们的训练数据限定在单机规模。此外,由于单机计算资源和内存的限制,我们以前训练一个风控模型需要 10 小时左右的时间。使用 Guagua,数据和计算都在 Hadoop 之上实现了分布式,不仅训练数据达到了我们之前不敢想象的 TB 级别,而且训练时间也由 10 小时左右减少到 1 小时左右,且最终的模型没有比单机有任何的性能损失。

InfoQ:Guagua 现在哪些地方满足了你的要求,哪些方面还不完善,计划做哪些工作改进它?

张彭善:Guagua 主要解决了模型训练的分布式问题,现在 PayPal 可以利用大数据快速训练风控数学模型。同时 Guagua 并没有将自己局限在分类模型,Guagua 是一个基于 Hadoop 的迭代式计算框架,几乎任何基于迭代的算法都可以利用 Guagua 为其添加分布式功能。此外由于 Guagua 对分布式的良好支持,我们以前许多想做又不能做的工作比如模型特征自动选取都可以得以进行。

Guagua 目前主要支持的是同步的 Master-Workers 结构的迭代式计算框架,今后我们希望能够支持异步方式的迭代计算框架,2012 年 Google MapReduce 之父 Jeff Dean发表了一篇论文,上面提到了对神经网络深度模型的支持,文章介绍他们的 DistBelief 框架训练的神经网络的数学模型可以支持 10 亿级别的参数。这也是 Guagua 的另一个方向,支持超大规模的深度神经网络模型。

2014-07-29 03:313051

评论

发布
暂无评论
发现更多内容

程序设计理念-CentOs7实践Nginx-带来安装服务的通用法则

图南日晟

nginx 架构设计 环境安装

web 性能压测工具

Z冰红茶

BIGO海量小文件存储实践

InfoQ_3597a20b53cc

Django Models随机获取指定数量数据方法

BigYoung

django 数据 random 随机 Models

Java如何调用Python(二)

wjchenge

技术​选型的艺术

YourBatman

技术选型 湖北

PV与UV你的网站也可以

北漂码农有话说

API网关——Kong实践分享

BoCloud博云

云计算 容器 PaaS API

数字货币并不能完美诠释区块链金融

CECBC

区块链技术 社会价值 打通数据孤岛 重建产业信用

Java如何调用Python(一)

wjchenge

前浪出新招,996已过时,互联网员工都开始住公司了!(爆公司信息)

程序员生活志

加班 996 007 互联网公司

创新监管首批8个试点应用公示 其中7个涉及区块链

CECBC

随着并发压力的增加,系统响应时间和吞吐量如何变化,为什么?

chenzt

挑战10的1,143,913次方种算法组合:这都不是事儿!

华为云开发者联盟

华为 算法 进化 华为云

关于数据库索引的知识点,你所需要了解的都在这儿了

鄙人薛某

MySQL 索引结构 索引 MySQL优化

Self-Compassion,对自己好一点

霍太稳@极客邦科技

创业 个人成长 自我管理 创业心态

百度大脑OCR技术助力钢铁物流实现智能管理

百度大脑

人工智能 百度大脑 文字识别

创业使人成长系列 (4)- 常用账号申请

石云升

支付宝 微信商户 商标

【数据结构】Java 常用集合类 HashMap(JDK 1.8)

Alex🐒

Java 源码 数据结构

进击的 Flink:网易云音乐实时数仓建设实践

Apache Flink

flink

为什么我们要自主开发一个稳定可靠的容器网络

BoCloud博云

云计算 容器 PaaS fabric

web压力性能测试

周冬辉

压力测试

架构感悟 7- 性能优化何为

旭东(Frank)

第7周总结:性能

慵秋

Kubernetes的拐点助推器:左手开源,右手边缘计算

华为云开发者联盟

Kubernetes 容器 边缘计算 华为云

原生Ingress灰度发布能力不够?我们是这么干的

BoCloud博云

云计算 容器 云原生 PaaS

漫画:如何证明sleep不释放锁,而wait释放锁?

王磊

Java Wait Sleep

为啥Underlay才是容器网络的最佳落地选择

BoCloud博云

云计算 容器

【数据结构】Java 常用集合类 ConcurrentHashMap(JDK 1.8)

Alex🐒

Java 源码 数据结构 并发编程

Netty-物联网设备Channel管理

凸出

Java Netty ConcurrentHashMap 物联网 channel

超详细讲解网络中的数据链路层~

程序员的时光

Guagua:PayPal的Hadoop迭代式计算框架_大数据_sai_InfoQ精选文章