写点什么

基于 OceanBase+Flink CDC,云粒智慧实时数仓演进之路

付大伟

  • 2024-06-28
    北京
  • 本文字数:2850 字

    阅读完需:约 9 分钟

大小:1.42M时长:08:15
基于OceanBase+Flink CDC,云粒智慧实时数仓演进之路

作者:付大伟 云粒智慧高级技术专家


云粒智慧成立于 2018 年 6 月,它是一家科技公司,主要面向政府和中小规模的企业,提供智慧城市和生态环保方面的智能化应用。


联通云粒拥有三中台:数据中台、智能中台和应用中台,以及智能化应用产品,与政府合作为各地提供智慧城市建设服务,包括政务数据一体化、公共数据开放、一网统管、一网通办等业务。另外,我们在一些应急领域如水利和环保,也拥有智能化预警等方面的业务。

业务背景及挑战


三中台之一的数据中台,主要提供数据采集、融合、治理、分析、计算的服务,是公司比较重要的产品。自公司成立初开始产品发育,到如今历经 5 个大版本迭代,现已在全国范围内落地上百个客户项目。下图是数据中台架构,可以看到其整体运行在 K8s 集群上,为了更好地动态扩缩容,计算和存储都使用 OceanBase,同时使用 Minio 做非结构化文件的存储工作,使用 Flink 流计算引擎。在引擎上层,我们构建了一个引擎操作系统,用来适配在客户交付过程中面临的不同的大数据底座。



由于为各类政企交付项目,因此云粒智慧在交付过程中积累了三方面的业务特性。


  • 多业务线,形态各异。政务领域业务跨度较大,多种数据源、不同频率的数据汇集,带来很多业务复杂性问题。

  • 计算资源缺乏。各项目 3-5 台计算资源,难以运行大规模计算;服务器资源匮乏,大量数据计算往往耗时较长。

  • 业务协同需求强。数据实时性较强,各单位追求业务协同效率,比如防汛减灾、水质污染等实时告警场景。


上述业务特点为技术实现带来了很大的挑战。技术中台作为大数据处理系统,引擎是它最核心的内容,在中台 1.x 到 3.x 版本迭代过程中,其实选用 Hive 和 HDFS 作为计算存储的引擎,但遇到诸多痛点,主要表现为以下四点。


  • 资源利用率低:受限于 YARN 的调度策略,需要在项目中依据任务和资源情况逐个调优,任务量增加后仍需持续投入,难以一劳永逸。

  • 数据时延:实时数据入仓带来了诸多小文件问题,虽然项目组在 Flink 的框架下做了诸多优化,仍然无法满足大屏监控、预警、数据消费等应急场景需求。

  • 不够灵活:数据更新方式仅支持全表/分区级覆盖,应对远景冷区部分数据更新时,处理逻辑复杂且低效。

  • 运维复杂:组件众多,配置、监控、伸缩、保活等都极大地增加了运维工作量。高可用场景下每个节点均需要多个进程,容器部署性能下降。


因此,在数据中台 4.x 版本时,云粒智慧希望引进新的引擎来解决上述问题。

实时数仓的架构演进


数据引擎作为一款基础软件,目前市面上百花齐放。云粒智慧在选型过程中主要关注五个方面:


  • 它的开源协议是否足够宽松。

  • 是否能够支持云原生的方式部署。

  • 它需要支持集群

  • 它能够以私有化的方式部署到客户的现场。

  • 这个产品以及它的生态是否有足够高的成熟度。


经过了较长时间的调研,认为 OceanBase 在三方面表现优异。第一,它的架构设计比较简洁,主要是由 OBServer 和 OBProxy 组成,即便运维多套客户环境,也会节省很大的成本,增加一些便利;第二,数据中台作为一个原生支持多租户的系统,我们使用 OceanBase 的多租户,整体方案上都会更加契合。第三,OceanBase 作为开源数据库,其社区和生态开放、成熟,尤其是针对我们常用的数据集成软件 DataX 和 Flink,都有官方的一些插件,OceanBase 非常契合云粒智慧的技术实现路线。


因此,我们对 OceanBase 做了一些性能测试,包括部署 3 台 8 核 32G 的服务器集群,每次处理的数据量都达到 1G 以上来观测它的性能。我们观测到,OceanBase 的性能指标最高可以达到 Hive 的 24 倍,在整个选型和应用过程中,OceanBase 的学习成本也比较低的,熟悉 MySQL 就能上手,而且官方文档比较齐全。此外,当我们确定产品选型后,在后续的迁移工作中,我们花了一个多月的时间就完成了适配和迁移,比预期快很多。同时据运维人员反馈,利用 OceanBase 的日志能够解决大部分运维的问题。


至于数据同步工具的选型,Flink CDC 的选型比较水到渠成,首先是契合度的问题,数据中台在最初版本中,我们已经使用 Flink 作为流计算的引擎,所以 Flink CDC 比较贴合我们的路线。其次,Flink CDC 支持的方式非常多,包括全量、增量,以及先全量再增量的方式,这有利于提升交付效率。以往我们利用离线的开发,比如 Hive 的数仓来做增量同步时,需要开发人员设计一个比较大的图,去数仓捞出最新的时间戳,并且把它作为一个参数注入 DataX 的一些导入节点上,之后还需要数据去重、关联等治理操作才能够完成。


此外,Flink CDC 运行在 Flink 分布式引擎上,在 K8s 上,我们根据客户实时数据量的大小可以自动扩缩容 Flink。


自从选用 OceanBase+Flink CDC 架构后,架构变得非常简洁,我们用 OceanBase 代替了以前以 Hive 为主的 MPP 引擎、HiveServer2、YARN 和 HDFS。使用 Flink CDC 来完成关联数据库日志的同步,使用 FlinkSQL 做相应的实时加工处理。数据写入流程也更加便捷。



总而言之,优化后的平台架构,在以下方面呈现出较大优势,使云粒智慧能够依托 FlinkCDC 和 OceanBase,建设完全云原生的智能化数据中台。


第一,云原生化。微服务、调度任务、大数据引擎全部基于 K8s 云原生技术,支持容器化部署和资源调度,实现弹性伸缩和快速升级。


第二,数据开发。不同业务形态下简易配置,离线与实时数据开发均提供 SQL 化(离线标准 SQL、实时 FlinkSQL)、配置化;拖拉拽式作业编排,百万级任务调度、开发效率提升。


第三,运维管理。以往,大数据底座问题往往需要运维+开发花费 1-2 天时间进行排查和优化,OceanBase 清晰的日志信息给运维带来极大便利,常见问题 1 小时内解决。


第四,资源利用。流计算和 OceanBase 的广泛应用,使得单个项目服务器资源由原来的 11 台 缩减到 6 台,在业务量和资源投入上可以更好的平衡。


第五,学习成本。OceanBase 对大数据新入行人员非常友好,学习成本极低。


下面我们以具体项目来说明 OceanBase + FlinkCDC 架构的优势。



这是我们在贵州某项目上的应用,从客户的数据量、接入量可以看出,体量较大。客户需要接入物联网设备产生的数据,并且做实时预测、实时告警。它的数据表产过 1900 个,涉及的数据量有 675 亿条,而且每天接入的数据量都达到 1.9 亿左右。


在改造前,我们使用 Hive 引擎需要 11 台服务器,并且实时数据接入是采用离线批量的方式让它入仓,基本上会有 5 分钟左右的延迟,不能满足客户实时告警的需求。另外,更新逻辑比较复杂,我们需要额外运行很多任务以保证入仓数据是最新、最完整、和业务匹配的。


改造后,我们发现只需要 8 台服务器就能够支撑客户所有的业务,而且可以将延时控制在 5 秒左右,极大提升了数据告警效率。由于更新支持变得容易,大家的任务量也被极大缩减了。整体而言,服务器资源节省 27%;实时效率提升 100 倍;业务复杂度降低 10%。

未来规划


2024 年,云粒智慧正在发力数据中台 5.x 版本的建设,进一步支持云原生化,包括结合 OceanBase 4.3 版本在云原生环境下做项目交付;通过 FlinkCDC 支持更多数据源、Flink ML 探索应用,增强流计算;基于计算引擎的资源监控升级调度策略;让数据平台能够在有限的资源下运行更多的调度任务。

2024-06-28 18:517452
用户头像
李冬梅 加V:busulishang4668

发布了 983 篇内容, 共 588.3 次阅读, 收获喜欢 1143 次。

关注

评论

发布
暂无评论
发现更多内容

新技术(区块链)--让游戏行业走的更远

CECBC

区块链技术 防篡改不可逆

给技术同学的建议:人人都该懂的埋点知识

易观大数据

埋点 智能运营

我天!xx.equals(null) 是什么骚操作??

导导

策略模式解析

南方有乔木兮

Twitter高性能分布式日志系统架构解析

俊俊哥

pulsar bookKeeper 分布式文件存储

六字说出微服务的本质

看山

架构 微服务 签约计划第二季

week8--课后作业

Geek_165f3d

刚坐下,一个面试官居然问了我 30个Spring Boot问题!

只喝纯牛奶

创业公司技术体系建设-CI/CD

星际行者

CI/CD

区块链+国防安全,科技是核心战斗力

CECBC

新技术 国防安全 科技信息

面经手册 · 第1篇《认知自己的技术栈盲区》

小傅哥

Java 面试 小傅哥 技术栈

求组队,PK华为HMS全球应用创新大赛!

InfoQ_e92167c73263

android

LeetCode题解:189. 旋转数组,pop+unshift一行,JavaScript,详细注释

Lee Chen

大前端 LeetCode

LeetCode002-两数相加-medium

书旅

算法 数据结构与算法

java高并发系列 - 第11天:线程中断的几种方式

简爱W

新三板专家-程晓明:四板将是推动区块链技术与资本市场结合试验田

CECBC

区块链技术 推进落地应用

一条更新sql在mysql中是怎么执行的

简爱W

秒懂云通信:如何用阿里云语音通知服务(小白指南)

阿里云Edge Plus

语音

Spring Boot+Redis+拦截器+自定义Annotation实现接口自动幂等

我是苞谷

智能的财务管理系统,来自某科技公司CEO亲手搭建

明道云

JVM系列之:通过一个例子分析JIT的汇编代码

程序那些事

Java JVM JIT 汇编

实现扫码登陆的最简单方案与原理

Java小咖秀

Java 解决方案 经验总结

架构师训练营第九周

Melo

功能扎实的ERP模版已上架应用库(支持免费安装使用)

明道云

【华为云技术分享】DLI跨源|当DLI遇见MongoDB

华为云开发者联盟

数据库 mongodb dlib 数据集 华为云

架构师技术领导力成长之路

IT民工大叔

领导力 架构师

编程日课•理解学院

顿晓

学习 编程日课 理解学院

实践录丨如何在鲲鹏服务器OpenEuler操作系统中快速部署OpenGauss数据库

华为云开发者联盟

数据库 鲲鹏920 操作系统 服务器 opengauss

海华大赛第一名团队聊比赛经验和心得:AI在垃圾分类中的应用

华为云开发者联盟

AI 算法 数据分析 垃圾回收机制 华为云

骚操作!用 CPU 烤肉,这位程序员做到了!

程序员生活志

程序员 gpu 程序人生

Spring系列第2篇:控制反转(IoC)与依赖注入(DI),晦涩难懂么?

老大哥

基于OceanBase+Flink CDC,云粒智慧实时数仓演进之路_数据库_InfoQ精选文章