写点什么

Yelp 开源数据管道项目最新组件——数据管道客户端库

  • 2017-01-12
  • 本文字数:1002 字

    阅读完需:约 3 分钟

2016 年底,Yelp开源了他们基于Python 和Apache Kafka 的数据管道客户端库。该库提供了一个发布和消费数据管道主题的接口。之前的讨论涉及Yelp 的数据管道组件以及分布式服务数据集成所面临的挑战,也就是 N+1 问题梅特卡夫定律

客户端库只是最新发布的一个 Yelp 数据管道组件。对于创建 Yelp 数据管道的动机和原因,据 Yelp 报道,切换到新的数据管道每年为他们节省了 1000 万美元。Yelp 工程副总裁 Jason Fennel 表示:

我们的动力产生于我们考察自己的数据仓库时。我们将所有的数据都集中在一起,供业务和战略人员以数据为驱动制定销售战略或产品战略。过去,那个过程极其费力。对于 MySQL 中的每一张表,我们的工程师都必须把它取出来存入那个数据仓库。那需要几天甚至是几周的工作……我们开始考察我们的数据仓库。把我们所有的数据都存进去需要 10 到 15 年的时间,但我们希望可以快点。即使把我们在这个管道上投入的时间和精力考虑在内,我认为,我们通过构建这个系统节省了 1000 万的工程成本。一旦我们接入了 Salesforce,那个数值就更大了。

服务通过客户端库从管道消费数据,在 Yelp,我们将这些数据输入类似 Salesforce RedShift Marketo 这样的目标。据报道,该库处理 Kafka 主题名称、加密和客户划分。通过一个消息代理来集中化服务通信并执行不可变的版本方案,这有助于保护下游消费者,也是更广泛的数据管道方案背后一个主要的动机。

例如,服务背后的物理变化或者从上游 MySQL 数据库加载数据的业务逻辑可以通过 Yelp 的 MySql streamer 以流的方式传输到 Kafka。 Schematizer 和数据管道客户端注册主题的模式、数据类型和格式,将消息封装到相关元数据中,并为下游消费实现版本控制。元数据封装器可以确保各种负载类型的消息和 kafka 主题的一致性,但是,负载内容本身可以用于变更数据捕获,并针对下游更新使用了 Kafka和日志压缩

新管道大大缩短了上游更新和数据库更新之间的端到端时间。Fennell 指出:

我们设法将一个需要用长达三周的时间获取数据的过程压缩到了几秒……我们开始加入其他类型的东西。不只是 Salesforce,还有 Redshift,我们的许多业务战略人员都在使用它。随着我们连接其他类似 MySQL 的东西,日志也进入了我们的数据管道,Kafka 构成了这一核心路由层,这意味着,我们每额外增加一个数据源受到的影响就会倍增。

查看英文原文 Yelp Open-Sources Latest in Data Pipeline Project, Data Pipeline Client Library

2017-01-12 18:001905
用户头像

发布了 1008 篇内容, 共 403.4 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

看完这5个核心功能,你会明白低代码平台到底能解决什么问题!

J2PaaS低代码平台

低代码 低代码开发 低代码平台

ONES Automation 流程自动化解决方案

万事ONES

自动化 SaaS

react源码解析6.legacy模式和concurrent模式

buchila11

React React Hooks

建立合格的跨职能团队,你需要知道这些!

禅道项目管理

团队 合作共赢

一页纸需求的应对方法 —— 五步法

CODING DevOps

业务价值 角色梳理 术语定义 主业务流程梳理 纲举目张

数据产品经理实战-指标体系搭建

第519区

数据产品经理 数据产品 指标体系 指标管理

专家推荐五个免费的网络安全工具

喀拉峻

网络安全 安全 渗透测试 渗透

元气部落盲盒小程序开发芒趣盲盒app开发

风行无疆

社交泛娱出海新引擎,融云「六化」能力助开发者轻装上阵

融云 RongCloud

游戏出海 出海社交 出海

Linux一学就会之Vim编辑器的使用和Xmanager工具的使用。

学神来啦

vim Linux centos 运维 ext4

你有一份「写作跨年」邀请函请查收 | 28天写作计划

TGO鲲鹏会

写作 技术创作 28天写作 内容创作 热门活动

WICC 广州高峰对话:为开发者标注「航海地图」

融云 RongCloud

开发 游戏 社交 泛娱乐 出海

Python代码阅读(第66篇):两个列表的包含关系

Felix

Python Code 列表 阅读代码 Python初学者

创新模式驱动生产力提升,融云社交场景化 SDK 探索

融云 RongCloud

直播 sdk 语聊房 场景化

【IT运维小知识】虚拟化vCenter是什么意思?有啥优势?

行云管家

高维数据世界|基于高维稀疏矩阵的潜在变量模型研究

索信达控股

算法 变量模型 模型介绍 高维数据

英特尔宋继强:秉持三个坚持,穿越技术周期,构建未来技术生态

科技新消息

手把手带你写一个 Vue3 的自定义指令

CRMEB

行业视野 | ONES CEO 王颖奇对话极客公园张鹏

万事ONES

SaaS SaaS平台

”微博评论“的高性能高可用计算架构设计

Steven

架构实战营

读《区块链技术及应用第二版》华为区块链发展思路、双引擎战略及华为区块链特点和使用有感

孙叫兽

区块链 华为链 华为区块链服务

新思科技BSIMM12报告显示开源、云、容器安全活动增长显著

InfoQ_434670063458

新思科技 软件安全 BSIMM

【最全攻略】玩转2021LIGHT开发者云大会

恒生LIGHT云社区

技术 开发 行业 行业大会

ONES Talk | 我们为什么选择最难走的软件之路

万事ONES

SaaS ONES

APISIX-Datadog 插件发布,助力用户提高系统的可观测性

API7.ai 技术团队

云原生 可观测性 API网关 APISIX Datadog

Java&Go三种HTTP客户端性能测试

FunTester

Java 性能测试 测试框架 Go 语言 FunTester

Rust 元宇宙 9 —— 库和序列化

Miracle

rust 元宇宙

混合云管理软件用哪个品牌好?咨询电话多少?

行云管家

从双十一的物流大战,看全球通信网络的低延迟优化

融云 RongCloud

音视频 通信 低延迟 全球通信

react源码解析5.jsx&核心api

buchila11

React React Hooks

字节跳动亿级DAU客户端发布最佳实践

字节跳动终端技术

Yelp开源数据管道项目最新组件——数据管道客户端库_数据库_Dylan Raithel_InfoQ精选文章