QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

应对 PB 级数据分析的挑战,领英使用了 Apache Pinot 加 Kafka 的数据架构

  • 2020-07-13
  • 本文字数:1085 字

    阅读完需:约 4 分钟

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构

本文最初发布于 Apache Pinot 开发博客,由 InfoQ 中文站翻译并分享。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为 Apache Pinot。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为Apache Pinot


Pinot 开始处理这个世界上最大的在线社交网络之一的传奇创新的遗留问题。在过去的几十年里,这家硅谷的科技巨头帮助了世界各地数以亿计的人找到了正确的职业生涯发展之路。如今,作为一家微软公司,领英一直在保证同事们之间的联系,伴随他们经历成功与失败,以及开启更好的职业生涯。



乍听起来可能有点奇怪,一个名为“谁看过我的资料”的功能会催生出一些最流行的开源工具,而这些工具正在改变公司构建和操作软件的方式。



Pinot 是 Apache 最新孵化的项目,它追随了KafkaHelixSamza等巨头的脚步,其中,Kafka正迅速成为云原生应用的支柱。如果软件确实正在吞噬世界,那么 Apache Kafka 可能要负责吞噬私有数据中心。


在 Kafka 登上行业标准消息代理的舞台之前,有硬软件问题的大公司除了运行自己的硬件之外几乎别无选择。但现如今,在 Kafka 这样的开源工具的帮助下,开发者可以在数据中心的虚拟机和云原生应用之间架起一座桥梁


Kafka 的秘诀是什么?它将从许多不同的相互分离的系统收集的事件流转换成可以像数据库一样查询的主题,而不必真得转换成数据库。


尽管作为一种“可移植数据仓库”,Kafka 代表了一项重大的进步,但大多数应用程序开发人员仍在努力将事件流转换为复杂的查询模型,而不用去了解 Kafka 流的流入流出。


现在,Pinot的目标更进一步,它在 Kafka 之上为开发者提供了一个他们熟悉的数据库,将事件流转换为可查询的数据模型。最终的结果是,在构建和操作他们的应用程序时,开发人员就不必再考虑如何获得 Kafka 的所有好处,而只需要关注如何编写对用户最有价值的代码。


由于 Kafka 既是消息代理又是事务日志,所以它也经常被用作数据库,这就给开发人员增加了负担,他们需要维护主题中事件流的数据投影。


Pinot 提供的是一种工具,使开发者无需考虑如何使用 Kafka 主题来构建和维护来自事件流的可查询投影。事实证明,考虑事件流只会降低开发过程的速度,而且代价是数据可移植性。


查看英文原文:Moving developers up the stack with Apache Pinot


2020-07-13 17:012515

评论

发布
暂无评论
发现更多内容

文档图像大模型在智能文档处理领域中的应用

百度开发者中心

人工智能 深度学习 大模型 智能文档

无缝对接,提升企业办公与薪酬福利管理效率!

聚道云软件连接器

案例分享

ACK One:构建混合云同城容灾系统

阿里巴巴云原生

阿里云 Kubernetes 云原生

面试官:如何实现10亿数据判重?

王磊

Java 面试题

信息茧房的困境

老张

信息茧房 sora

IPQ9574/Breaking the speed boundary: exploring the innovative technologies of WiFi 7

wallysSK

想要一个龙年头像,在线等挺急的

阿里巴巴云原生

阿里云 云原生 函数计算 Stable Diffusion

玩转 Go Slices 切片泛型库

陈明勇

Go golang 后端 go slices

基于Java开发的工作流管理系统,快速开发平台

金陵老街

思码逸企业版 4.0 特性之二:支持 DevOps 全工具链数据分析

思码逸研发效能

为什么单元测试不是持续交付的唯一答案

敏捷开发

项目管理 DevOps CI/CD 测试 单元测试 产品研发

Go 1.22 slices 库的更新:高效拼接、零化处理和越界插入优化

陈明勇

Go golang 后端 Go 1.22

区块链软件开发:创新、安全、智能的数字未来

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

思码逸企业版 4.0 特性之一:支持 DevOps 全工具链数据分析

思码逸研发效能

NFTScan | 02.12~02.18 NFT 市场热点汇总

NFT Research

NFT NFT\ NFTScan

JavaScript和Java:看似相似但实际上截然不同

伤感汤姆布利柏

电商“变法”,AI维新

脑极体

AI

利用大数据和API优化电商决策:商品性能分析实践

Noah

在script标签写export为什么会抛错|type module import ES5 ES6 预处理 指令序言 JavaScript JS

Geek_ee6d52

前端 JavaScrip

详解 JSON 文件的打开方法

Apifox

JavaScript json 程序员 前端 教程

Python可视化工具集合来报道(下)

小齐写代码

命名虚拟机及设置安装路径

小魏写代码

以太坊 Dencun 升级与潜在机会

TechubNews

Ethereum 区块链、 #Web3

oracle和mysql语句有哪些异同点?

伤感汤姆布利柏

DevData Talks | 金融大咖说:金融企业如何持续提升研发效能

思码逸研发效能

大模型开发:从数据挖掘到智能应用

百度开发者中心

自然语言处理 大模型 人工智能、

微信小程序制作步骤,开发成本低,轻松打造

天津汇柏科技有限公司

小程序开发 开发小程序

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构_架构_Kenny Bastani_InfoQ精选文章