速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

  • 2024-05-29
    北京
  • 本文字数:1116 字

    阅读完需:约 4 分钟

大小:523.49K时长:02:58
Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

Yelp 公司 采用 Apache Beam 和 Apache Flink 重新设计了原来的数据流架构。该公司使用 Apache 数据流项目创建了统一而灵活的解决方案,取代了将交易数据流式传输到其分析系统(如 Amazon Redshift 和内部数据湖)的一组分散的数据管道。


Yelp 在两套不同的在线系统中管理业务实体(其平台中的主要数据实体之一)的属性。平台的旧版部分将业务属性存储在 MySQL 数据库中,而采用微服务架构的较新部分则使用 Cassandra 存储数据


在过去,该公司将数据从在线数据库流式传输到离线(分析)数据库的解决方案,是由上述管理业务属性的两个区域的一些独立数据管道组成的。该方案使用  MySQL 复制处理程序 从旧系统推送数据,使用  Cassandra 源连接器 从新系统推送数据。在这两种情况下,更新都发布到 Apache Kafka,而  Redshift 连接器负责将数据同步到相应的 Redshift 表。


之前的业务属性流式传输架构(来源:Yelp 工程博客)


原有解决方案采用单独的数据管道,将数据从在线数据库流式传输到分析数据存储中,其封装性较弱,因为离线(分析)数据存储中的数据表与在线数据库中的对应表完全对应,使数据分析团队面临数据差异和数据准确性问题。此外,分析过程必须从多个表中收集数据,并将这些数据规范化为一致的格式。最后,由于在线和离线数据存储之间的表架构相同,对架构的更改必须在两处各自部署,从而带来了维护挑战。

Yelp 团队决定解决原有方案的这些问题,方法是将在线系统的内部实施细节抽象出来,并为使用分析数据存储的客户提供一致的体验。Yelp 高级数据工程师 Hakampreet Singh Pandher 解释了团队采用的方法:[...]


我们实施了一个统一的流,以一致且用户友好的格式提供所有相关的业务属性数据。这种方法可确保业务属性消费者无需处理业务属性和功能之间的细微差别,也无需了解它们的在线源数据库中数据存储的复杂性。


团队利用 Apache Beam 和 Apache Flink 作为分布式处理后端。Apache Beam 转换作业从旧版 MySQL 和较新的 Cassandra 表中获取数据,将数据转换为一致的格式并将其发布到单个统一的流中。工程师使用  Joinery Flink 作业 将业务属性数据与相应的元数据合并。另一项作业用于解决数据不一致的问题,最后在 Redshift Connector 和 Data Lake Connector 的帮助下,业务属性数据进入两个主要的离线数据存储中。


业务属性的新流式架构(来源:Yelp 工程博客)


彻底改造流式架构的总体收益是让数据分析团队能够通过单一模式访问业务属性数据,这有助于数据发现,让数据消费更简单。该团队还利用 实体 - 属性 - 值(EAV)模型,将新业务属性纳入系统,同时减少维护开销。


原文链接:


Yelp Overhauls Its Streaming Architecture with Apache Beam and Apache Flink (https://www.infoq.com/news/2024/04/yelp-streaming-apache-beam-flink/)

声明:本文为 InfoQ 翻译,未经许可禁止转载。

2024-05-29 08:008001

评论

发布
暂无评论

xz工具供应链后门事件 紧急处理

徐凌云

探索GaussDB(DWS)湖仓融合:Hudi与元数据打通的深度解析

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

一学就懂!Abaqus热分析发动机电池包和电池冲击分析

思茂信息

abaqus abaqus软件 abaqus有限元仿真

base链市值机器人

区块链技术

了解 Websocket 断连技巧:易懂的实战指导

Apifox

程序员 后端 网络协议 websocket 网络通信

科技改变财务规划:提升企业对自动化技术的管理

智达方通

企业管理 财务分析 财务规划与分析

阿里云 ApsaraMQ 率先完成消息队列全系 Serverless 化,携手 Confluent 发布新产品

阿里巴巴云原生

阿里云 Serverless 云原生 Confluent ApsaraMQ

Studies for Mac 1.8.7激活版 学习卡工具

iMac小白

Studies for Mac下载 Studies for Mac激活版

Higress 基于自定义插件访问 Redis

阿里巴巴云原生

阿里云 云原生 Higress

一款比Typora更简洁优雅的Markdown编辑器神器(完全开源免费)

不在线第一只蜗牛

Typora 编辑器

飞天发布时刻丨阿里云 ApsaraMQ 全面升级,携手 Confluent 发布全新产品

阿里巴巴云原生

阿里云 云原生 Confluent ApsaraMQ

软件测试学习笔记丨Goreplay流量回放

测试人

软件测试

SpringBoot多环境配置

EquatorCoco

Java 数据库 Spring Boot

大模型预测,下一个token何必是文字?

Openlab_cosmoplat

Mac全面战争:罗马重制版 Total War ROME REMASTERED 2.0.5中文版

iMac小白

上云有道 | 一图读懂天翼云边缘安全加速平台AccessOne!

天翼云开发者社区

边缘计算 云服务 云平台 边缘安全

黑科技优化产品质量,Fe-safe在电磁随机振动下的分析

思茂信息

仿真 Fe-safe 疲劳分析

软件测试学习笔记丨被测系统架构数据流分析

测试人

软件测试

探索Django REST框架构建强大的API

快乐非自愿限量之名

Python API Java集合框架

玩转云端| AccessOne实用窍门之三步搞定门户网站防护与加速

天翼云开发者社区

云计算 网络安全 云服务

玩转云端| 如何防爬虫?天翼云边缘安全加速平台AccessOne带你涨姿势!

天翼云开发者社区

云计算 网络安全 云服务 云平台

Redis开源协议调整,我们怎么办?

华为云PaaS服务小智

redis 华为云

NFTScan | 03.25~03.31 NFT 市场热点汇总

NFT Research

NFT\ NFTScan nft工具

从定义到实践:学会在 C++ 中使用变量

秃头小帅oi

又双叒叕获奖!天翼云推动算力服务便捷普惠泛在!

天翼云开发者社区

云计算 网络安全 云服务

Valentina Studio Pro for Mac v13.9.1激活版 专业数据库管理软件

iMac小白

Flink Checkpoint 机制深度解析:原理、注意事项与最佳实践

木南曌

flink 实时计算

用友陈强兵:企业数智化进入“加速期”

ToB行业头条

软件项目估算8大原则

俞凡

项目管理

【教程】Flutter 应用混淆

雪奈椰子

MegaSeg Pro for Mac v6.3.1注册激活版 音视频DJ混音工具

iMac小白

Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构_架构_Rafal Gancarz_InfoQ精选文章