写点什么

Yelp 开源数据管道项目最新组件——数据管道客户端库

  • 2017-01-12
  • 本文字数:1002 字

    阅读完需:约 3 分钟

2016 年底,Yelp开源了他们基于Python 和Apache Kafka 的数据管道客户端库。该库提供了一个发布和消费数据管道主题的接口。之前的讨论涉及Yelp 的数据管道组件以及分布式服务数据集成所面临的挑战,也就是 N+1 问题梅特卡夫定律

客户端库只是最新发布的一个 Yelp 数据管道组件。对于创建 Yelp 数据管道的动机和原因,据 Yelp 报道,切换到新的数据管道每年为他们节省了 1000 万美元。Yelp 工程副总裁 Jason Fennel 表示:

我们的动力产生于我们考察自己的数据仓库时。我们将所有的数据都集中在一起,供业务和战略人员以数据为驱动制定销售战略或产品战略。过去,那个过程极其费力。对于 MySQL 中的每一张表,我们的工程师都必须把它取出来存入那个数据仓库。那需要几天甚至是几周的工作……我们开始考察我们的数据仓库。把我们所有的数据都存进去需要 10 到 15 年的时间,但我们希望可以快点。即使把我们在这个管道上投入的时间和精力考虑在内,我认为,我们通过构建这个系统节省了 1000 万的工程成本。一旦我们接入了 Salesforce,那个数值就更大了。

服务通过客户端库从管道消费数据,在 Yelp,我们将这些数据输入类似 Salesforce RedShift Marketo 这样的目标。据报道,该库处理 Kafka 主题名称、加密和客户划分。通过一个消息代理来集中化服务通信并执行不可变的版本方案,这有助于保护下游消费者,也是更广泛的数据管道方案背后一个主要的动机。

例如,服务背后的物理变化或者从上游 MySQL 数据库加载数据的业务逻辑可以通过 Yelp 的 MySql streamer 以流的方式传输到 Kafka。 Schematizer 和数据管道客户端注册主题的模式、数据类型和格式,将消息封装到相关元数据中,并为下游消费实现版本控制。元数据封装器可以确保各种负载类型的消息和 kafka 主题的一致性,但是,负载内容本身可以用于变更数据捕获,并针对下游更新使用了 Kafka和日志压缩

新管道大大缩短了上游更新和数据库更新之间的端到端时间。Fennell 指出:

我们设法将一个需要用长达三周的时间获取数据的过程压缩到了几秒……我们开始加入其他类型的东西。不只是 Salesforce,还有 Redshift,我们的许多业务战略人员都在使用它。随着我们连接其他类似 MySQL 的东西,日志也进入了我们的数据管道,Kafka 构成了这一核心路由层,这意味着,我们每额外增加一个数据源受到的影响就会倍增。

查看英文原文 Yelp Open-Sources Latest in Data Pipeline Project, Data Pipeline Client Library

2017-01-12 18:001809
用户头像

发布了 1008 篇内容, 共 392.9 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

Netty引导器Bootstrap学习笔记

风翱

Netty 5月日更

ES_her0

5月日更

Golang 程序实体

escray

学习 极客时间 Go 语言 5月日更

🚀【高并发技术专题】你需要了解的秒杀方案

洛神灬殇

高并发系统设计 高并发优化 5月日更

实时音视频通讯过程中声音的那些事儿

liuzhen007

音视频 5月日更

测试开发需要掌握哪些技术?

夏兮。

方法论 测试 CI/CD automation 语言 & 开发

Redis - 列表

旺仔大菜包

redis

【LeetCode】罗马数字转整数Java题解

Albert

算法 LeetCode 5月日更

从 Netflix 到 Alibaba,Spring Cloud 更好了吗?

博文视点Broadview

带你认识时域、频域与Android系统Visualizer

Changing Lin

音视频 5月日更

面试被问 Spring cloud 上下文,可以这样回答

Damon

spring SpringCloud 5月日更

架构实战训练营 - 模块四课后作业

Johnny

架构实战营

学习笔记之:孩子学习老是跑?日更好“难”

Nydia

学习

DDD这样落地

码农戏码

DDD

领域驱动设计101 - 实体

luojiahu

领域驱动设计 DDD

线性表,栈,队列,数组草图

鲁米

没有发生GC也进入了安全点?这段关于安全点的JVM源码有点意思!

CoderW

Java 源码分析 JVM GC

什么是线程安全?一文带你深入理解

程序猿阿星

线程安全 信号量 线程同步 互斥锁

实时语音如何过质量关?

cv君

深度学习 算法 音视频 引航计划

企业数字化转型分为三个阶段

石云升

数字化 5月日更

高性能JavaScriptの笔记(二)

空城机

JavaScript 大前端 5月日更

架构实战营 - 模块 4- 作业

请弄脏我的身体

架构实战营

MySQL数据库学习笔记(1)

lenka

5月日更

(深入篇)漫游语音识别技术—带你走进语音识别技术的世界

攻城先森

深度学习 音视频 语音识别 5月日更

项目管理学习到的教训

胡迪伦

项目管理

后悔:要是当初那样就好了

石云升

思维方式 5月日更 后悔 人生选择

Android 音视频采集那些事

LoveYFan

音视频

架构实战营 - 模块 4- 作业

泄矢的呼啦圈

架构实战营

开源流媒体服务器SRS学习笔记 - 安装、推流、拉流

赖猫

音视频 SRS SRS流媒体服务器

谈一谈“数字资产”

小天同学

思考 数字时代 5月日更 数字文物 数字内容

架构训练营模块4作业

Geek_649372

架构训练营

Yelp开源数据管道项目最新组件——数据管道客户端库_数据库_Dylan Raithel_InfoQ精选文章