HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Yelp 开源数据管道项目最新组件——数据管道客户端库

  • 2017-01-12
  • 本文字数:1002 字

    阅读完需:约 3 分钟

2016 年底,Yelp开源了他们基于Python 和Apache Kafka 的数据管道客户端库。该库提供了一个发布和消费数据管道主题的接口。之前的讨论涉及Yelp 的数据管道组件以及分布式服务数据集成所面临的挑战,也就是 N+1 问题梅特卡夫定律

客户端库只是最新发布的一个 Yelp 数据管道组件。对于创建 Yelp 数据管道的动机和原因,据 Yelp 报道,切换到新的数据管道每年为他们节省了 1000 万美元。Yelp 工程副总裁 Jason Fennel 表示:

我们的动力产生于我们考察自己的数据仓库时。我们将所有的数据都集中在一起,供业务和战略人员以数据为驱动制定销售战略或产品战略。过去,那个过程极其费力。对于 MySQL 中的每一张表,我们的工程师都必须把它取出来存入那个数据仓库。那需要几天甚至是几周的工作……我们开始考察我们的数据仓库。把我们所有的数据都存进去需要 10 到 15 年的时间,但我们希望可以快点。即使把我们在这个管道上投入的时间和精力考虑在内,我认为,我们通过构建这个系统节省了 1000 万的工程成本。一旦我们接入了 Salesforce,那个数值就更大了。

服务通过客户端库从管道消费数据,在 Yelp,我们将这些数据输入类似 Salesforce RedShift Marketo 这样的目标。据报道,该库处理 Kafka 主题名称、加密和客户划分。通过一个消息代理来集中化服务通信并执行不可变的版本方案,这有助于保护下游消费者,也是更广泛的数据管道方案背后一个主要的动机。

例如,服务背后的物理变化或者从上游 MySQL 数据库加载数据的业务逻辑可以通过 Yelp 的 MySql streamer 以流的方式传输到 Kafka。 Schematizer 和数据管道客户端注册主题的模式、数据类型和格式,将消息封装到相关元数据中,并为下游消费实现版本控制。元数据封装器可以确保各种负载类型的消息和 kafka 主题的一致性,但是,负载内容本身可以用于变更数据捕获,并针对下游更新使用了 Kafka和日志压缩

新管道大大缩短了上游更新和数据库更新之间的端到端时间。Fennell 指出:

我们设法将一个需要用长达三周的时间获取数据的过程压缩到了几秒……我们开始加入其他类型的东西。不只是 Salesforce,还有 Redshift,我们的许多业务战略人员都在使用它。随着我们连接其他类似 MySQL 的东西,日志也进入了我们的数据管道,Kafka 构成了这一核心路由层,这意味着,我们每额外增加一个数据源受到的影响就会倍增。

查看英文原文 Yelp Open-Sources Latest in Data Pipeline Project, Data Pipeline Client Library

2017-01-12 18:001784
用户头像

发布了 1008 篇内容, 共 389.7 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

Java实现双向链表的基本操作

爱好编程进阶

程序员 后端开发

10个经典又容易被人疏忽的JVM面试题

爱好编程进阶

Java 程序员 后端开发

干货 | Authing 产品总监佟野:Authing 的产品打磨之路

Authing

身份认证 用户思维 2B 产品 用户旅程 产品功能设计

架构实战营之毕业总结

IT屠狗辈

架构实战营

一场会带来啥改变?三翼鸟引领行业进入有脑时代

脑极体

BIO,NIO,AIO的区别

爱好编程进阶

Java 程序员

重磅推荐-深度学习之ResNet家族

AIWeker

人工智能 深度学习 5月月更 resnet

Java并发编程—实现线程的方式只有一种

爱好编程进阶

Java 程序员 后端开发

Java程序员面试中最容易答错的8道面试题,你中坑了吗?

爱好编程进阶

程序员 后端开发

JavaScript数据类型

源字节1号

软件开发 前端开发 后端开发 小程序开发

Go 学习笔记——函数篇一

为自己带盐

Go 5月月更

直播预告丨OpenHarmony标准系统多媒体子系统之音频解读

OpenHarmony开发者

OpenHarmony 多媒体

TiDB Cloud GA,助力全球企业在云上构建新一代云原生应用

PingCAP

深度学习|AI芯片:上游产业率先爆发

Finovy Cloud

深度学习 gpu GPU服务器

DDD领域驱动设计实战-分层架构及代码目录结构

爱好编程进阶

Java 程序员 后端开发

GitHub 和 Gitee 开源免费 10 个超赞后台管理面板,看完惊呆了!

爱好编程进阶

Java 程序员 后端开发

人工智能超大规模预训练模型浅谈

百度Geek说

在虚拟机上搭建单机k8s环境

红莲疾风

Java 专项练习【11- 20】

爱好编程进阶

Java 程序员 后端开发

ironSource 推出 Luna Views,通过定制化数据面板呈现多渠道广告效果

Geek_2d6073

易仓跨境Saas全球租户,如何做到数据秒级响应?

阿里云大数据AI技术

数据库 flink SaaS

实力印证!青藤入选第一批“网络安全能力评价工作组”成员单位

青藤云安全

Java语言程序设计与数据结构(基础篇)课后练习题 第十三章

爱好编程进阶

Java 程序员 后端开发

Electron 插件开发实践

网易云信

c++ Electron

Java多线程 高频面试题

爱好编程进阶

Java 程序员 后端开发

2022年记一次慢查询优化指南,MySQL 优化学习第9天

梦想橡皮擦

5月月更

集简云 x Authing,助力网校打通用户身份管理屏障

Authing

低代码 单点登录 业务流程优化 小鹅通

未来以体验为中心的数字化战略前景 已经变得愈发明朗

易观分析

精细运营 渠道融合

TiDB 6.0 新特性解读 | Collation 规则

TiDB 社区干货传送门

2021年Java春招高级面试指南(1到5年Java面试者必备)

爱好编程进阶

Java 程序员 后端开发

Hibernate多对多的关系映射,详解(代码

爱好编程进阶

Java 程序员 后端开发

Yelp开源数据管道项目最新组件——数据管道客户端库_数据库_Dylan Raithel_InfoQ精选文章