HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

揭秘白条数据架构演变历程

  • 2020-03-25
  • 本文字数:1789 字

    阅读完需:约 6 分钟

揭秘白条数据架构演变历程

第一次演变

时间:2014.1~2015.5


目的:解决核心和非核心业务系统对关键数据库的访问;提供一个分库分表后白条数据汇总平台;满足财务结算、运营系统、客服系统对白条的数据查询(非核心业务不对主业务库做相关的数据处理)。


白条业务系统(贷、分期、还、逾、退)所生产的数据信息通过 MQ 异步将数据信息更新到 solr 集群中,solr 集群将数据表信息和 collection 进行一一对应,collection 里做 shard(针对不同表的数据 shard 的个数也不一样) 来分散数据的存储。使用 solr+hbase 做为介质,solr 做表里需要查询字段的索引,hbase 做全量数据存储。

1 Solr+hbase 数据架构

2 Solr+hbase 架构的优缺点

优点


  • 数据写入 solr 中,少量数据(>30 亿)性能非常好,通过 solr 进行 shard 部署。

  • 对实时性不是非常高的业务,直接可以查询 solr,减少到核心业务库的压力。


缺点


  • 大数据量的写入及查询慢。

  • 当有节点挂了,经常需要重启整体集群来保证集群稳定性。


solr 扩展性复杂,业务侵入性大。

第二次演变

时间:2015.6~2016.5


目的:随着业务增加,数据量不断的呈几何倍的增涨,对数据质量及完整性的要求越来越高;结算人员需导入及导出大量线上数据作为结算处理,solr+hbase 已满足不了,由此产生了白条 mongodb 的数据架构。


白条 mongodb 数据架构是引进 nosql 将业务产生的数据信息存入 mongodb,使用 mongodb 集群来按月来分表,mongodb 集群分为 3 个 mongos 、3 个 config、3 个 replica set,replica set 里也采用分片来分散数据的存储,通过 mongos 和应用系统进行数据交互。

1 白条 mongdb 数据架构

2 白条 mongdb 数据架构优缺点

优点


  • 通过按月来进行分表存储,只查询近一个月的热点数据,速度非常快,性能高。

  • 非结构化数据存储,没有固定的表结构,不用为了修改表结构而进行数据迁移。


缺点


  • 业务侵入性大,只要有数据更新,就需要在业务里做代码逻辑处理,耦合度太高,复杂。

  • 数据量在>60 亿,mongodb 架构非常适合。

  • mongdb 比较耗内存,热点数据都放在内存里,以内存换取时间性能。

  • mongodb 容量问题,单台服务器的硬盘容量是固定的,业务成倍扩增长,数据量也增长非常迅速,当超过整个集群的容量时,扩容非常麻烦。因此在做 mongodb 架构时需要考虑数据量问题,复制集扩展难度大。

第三次演变

时间:2016.10~2017.6


目的:还是业务迅速发展,数据量暴涨(60 亿+),对数据的质量及完整性的要求越来越高,业务查询量大, mongodb 经常被容量问题所困惑,有性能问题影响。并为财务、运营、客服、对账内部提供高安全、高可靠、高性能的服务


白条大数据平台,通过使用 dbrep 组件,模拟 mysql 的 slave 的方式,实时获取增量 binlog,通过解析 binglog,采集数据库变动内容,并将变动内容以 json 格式存储到(kafka)消息系统,消费端通过分布式来消费 kafka 中的消息数据信息,将消息数据按指定的 ES 索引列往 ES 里写入,并写入到 Hbase 大数据平台,大数据平台内部提供高安全、高可靠、高性能的服务。

1 白条大数据平台架构


Dbrep 是基于 kafka、zookeeper、flume 搭建的准实时数据同步系统,其主要涉及以下几大模块。


  • Dbrep-node:是 dbrep 的运行容器,根据配置,其上可以运行 dbrep 提供的各种 agent 组件,如数据采集、数据落库等常用数据同步组件。

  • Dbrep-consumer:以嵌入的方式运行在用户应用程序上,根据配置从消息中间件订阅消息,并交给用户相应的处理器进行处理。

  • Dbrep-console:dbrep 配置管理控制台,负责 node 和 consumer 具体配置信息的配置,及状态监控,异常告警等基础功能。

  • ZK 集群:存储 dbrep 基本配置,以及 dbrep 各节点间状态协调。

  • KAFKA 集群:存储数据变动记录。

2 大数据平台架构的优势

  • 数据实时性强,通过 binlog 做 mysql 的 slave 基本是秒级数据同步。

  • 数据完整性高,准确性高,mysql 的 binlog 一般不存在丢数据的问题。

  • 易扩展性,不针对业务(无业务侵入),只针对数据库。

  • 支持无限扩容,海量数据。

总结

白条大数据平台诞生之初正是互联网行业的高速发展期,经历这些年的发展,取得了很大的进步,从草根走向专业,从弱小走向规模,从分散走向统一,从杂乱走向规范。 本文主要讲述了几年来白条大数据平台架构演进的过程,技术架构单独拿出来看我认为没有绝对的好与不好,需要要放在彼时的背景下来看,要考虑业务的时效价值、团队的规模和能力、环境基础设施等等方面。 架构演进的生命周期适时匹配好业务的生命周期,才能发挥最好的效果。


2020-03-25 19:48933

评论

发布
暂无评论
发现更多内容

Python爬虫实战:批量下载高清小姐姐壁纸(附上完整源码)

袁袁袁袁满

Python 代理IP 爬虫实战

openEuler 走出开源操作系统的“开放创新路”

科技热闻

淘宝商品详情API接口:实现商品属性与价格数据的实时更新策略

代码忍者

API 接口 pinduoduo API

利用淘宝商品详情API(item_get_app)挖掘商品数据:券后价折后价优惠券、价格、销量、描述及SKU,构建精准竞品分析与推广策略

代码忍者

API 接口 pinduoduo API

裸眼3D技术引领新潮流

Dylan

技术 媒体 数字 3D 户外LED显示屏

商品管理系统引领时尚零售智能化升级 降价商品量锐减30%

第七在线

又稳又快!基于ByteHouse ELT构建高性能离/在线一体化数仓

字节跳动数据平台

大数据 数据飞轮

安徽黄山市等保测评机构有哪些?电话多少?

行云管家

网络安全 等保 堡垒机 黄山

【FAQ】HarmonyOS SDK 闭源开放能力 —Share Kit

HarmonyOS SDK

HarmonyOS

精准测试如何落地

测吧(北京)科技有限公司

测试

金融数据处理新策略:ScaleFlux CSD的优化之道

ScaleFlux

量化交易 固态硬盘 企业存储

面试中高级golang开发工程师岗位,会问到什么?

王中阳Go

Go 后端 面经

SecureCRT for mac(专业的终端SSH工具)

Mac相关知识分享

软件测试丨精准测试如何落地

测试人

软件测试

「一」HarmonyOS端云一体化开发概述

白晓明

HarmonyOS HarmonyOS NEXT 端云一体化

Reviewbot 开源 | 有些 git commit 记录真的不敢恭维, 我推荐每位工程师都常用 git rebase 和 git commit --amend

大卡尔

DevOps 代码审查 工程实践 CodeReview

电商的强劲马达:京东商品详情API接口

科普小能手

京东 API API 接口 京东商品详情接口 京东商品API

交通行业怎么定义?需要用到堡垒机?

行云管家

交通 IT行业 IT运维 交通运维

鸿蒙网络编程系列49-仓颉版TCP客户端

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

Go语言中使用JWT鉴权、Token刷新完整示例,拿去直接用!

左诗右码

深度解读混合专家模型(MoE):算法、演变与原理

Zilliz

nlp 大模型 深度学习‘’ MoE

时序图是什么意思,怎么画?10个常用的时序图模板盘点!

职场工具箱

效率工具 UML 时序图 在线白板 绘图软件

蚂蚁 KAG 框架核心功能研读

可信AI进展

活动回顾 & PPT 下载|大模型背景下私域知识库的构建和可信问答 Meetup 完美收官!

可信AI进展

利用代理IP爬取Zillow房产数据

Yan-英杰

Python 后端 爬虫技术

Sound Control for Mac(音量控制软件)

Mac相关知识分享

Java如何解决同时出库入库订单号自动获取问题

EquatorCoco

Java oracle JVM

构建司库信创体系化能力,信息技术驱动势不可挡!

用友智能财务

数字化转型 科技 财务 企业数智化 司库

苹果电脑怎么解压rar文件?Mac上解压RAR文件超实用的方法

阿拉灯神丁

压缩工具 mac解压缩软件 文件压缩工具 BetterZip 5下载

我把 Github 今年最火 Java 面试题汇总扒下来了

采菊东篱下

编程 java面试

Termius Beta for Mac(功能强大的SSH客户端)中文版

Mac相关知识分享

揭秘白条数据架构演变历程_文化 & 方法_京东数字科技产业AI中心_InfoQ精选文章