速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Expedia 使用 WebSocket 和 Kafka 实现近实时的数据流查询

作者:Rafal Gancarz

  • 2024-01-13
    北京
  • 本文字数:1134 字

    阅读完需:约 4 分钟

Expedia 使用 WebSocket 和 Kafka 实现近实时的数据流查询

Expedia 实现了从他们的平台近实时地查询点击流数据的解决方案,这让他们的产品和工程团队可以在开发新的和增强现有数据驱动的特性时能够进行实时的数据探索。该团队使用了 WebSocket、Apache Kafka 和 PostgreSQL 的组合,可以连续向用户浏览器流式传输查询结果。


Expedia 的多个来源会产生大量数据,包括网站上的交互。用户在浏览网站或与网页元素进行交互时收集的点击流数据可以提供宝贵的用户行为见解。Expedia Group 的数据工程师(目前在 Personio)Ryan Lacerna 解释了近实时查询的优势:


为了确保数据质量,我们面临的一个挑战是在数据注入管道后可以立即查看数据。传统的方法,如查询数据湖和数据仓库,需要较长的处理时间,而基于事件驱动的工具可以让用户快速高效地查询和查看流式数据,为数据生产者提供快速反馈,让数据使用者可以了解捕获了哪些数据。


该团队选择使用 WebSocket 实现网页浏览器和服务器之间的双向实时通信。使用 WebSocket 的优势在于可以避免不断刷新服务器数据。此外,WebSocket 基于单个长连接,可以提高性能和最小化资源开销。



近实时查询解决方案的架构(来源:Expedia 工程博客)


该解决方案包含了 UI 应用程序、WebSocket Handler 和 Filter Worker,并使用了 Apache Kafka 主题和 PostgreSQL 数据库。UI 提供了一个简单的查询表单,用户可以指定要显示的点击流事件类型,并提供了一个通过 WebSocket 发送查询结果的小部件。UI 应用程序使用 SockJS 库和 [STOMP 协议] 实现 (https://en.wikipedia.org/wiki/Streaming_Text_Oriented_Messaging_Protocol) 与服务器的交互。


在服务器端,WebSocket Handler 负责处理 STOMP 格式的查询,并将流式结果发送回浏览器。Handler 从 Apache Kafka 主题读取经过筛选的点击流事件。Filter Worker 负责基于活动查询将经过筛选的事件流发布到 WebSocket Handler 订阅的 Kafka 主题中。这两个服务在 Kubernetes 运行了多个副本,具备了可伸缩性。


服务使用 PostgreSQL 数据库来同步查询的细节,其中包括点击流事件的筛选条件。WebSocket Handler 将查询过滤器持久化到数据库表中,并在用户断开会话或 TTL(生存时间) 到期(在用户会话存在的情况下)时将其删除。该解决方案依赖了 Postgres 的 LISTEN/NOTIFY 功能,确保 Filter Worker 根据数据库的变更保持其内存缓存的最新状态。



将筛选事件路由给用户(来源:Expedia 工程博客)


与源主题相比,Filter Worker 服务显著减少了发布到筛选主题的事件的数量。发布到筛选主题的消息使用 Filter ID 作为键,WebSocket Handler 利用这个 ID 将消息路由给正确的用户。这种方法还支持对 WebSocket 层进行扩展,在工具用户数量增长时处理更大的负载。


原文链接


https://www.infoq.com/news/2023/12/expedia-websockets-kafka-query/


2024-01-13 08:0012326

评论

发布
暂无评论
发现更多内容

模块三作业 外包学生管理系统详细架构设计

小朱

架构实战营

详细剖析Kafka架构及组件

五分钟学大数据

11月日更

CSS布局之display:flex

Augus

CSS 11月日更

Go语言,测试功能详解-上

微客鸟窝

Go 语言 11月日更

大数据训练营学习总结

arctec

用vscode创建第一个flutter项目

坚果

flutter 11月日更

体验内容更新,MindSpore轻松掌握

Geek_6cdeb6

如何“拼”出一个页面-游戏中心模块化实践

vivo互联网技术

开发 组件化 产品方法论

微信小程序开发:使用字体图标的方法

三掌柜

11月日更

敏捷开发专家一席谈:云原生技术下的华为云DevOps实践之路

华为云开发者联盟

DevOps 敏捷开发 华为云 devcloud

如何在 JavaScript 中操作二维数组

devpoint

JavaScript array 数组操作 11月日更

DevOps为何在中国发展滞后?

SoFlu软件机器人

测试右移与自动化测试

刘冉

自动化测试 测试右测

架构实战模块作业八

Yina🌝很浪🌊

架构实战课

题目三、简述HDFS的读写流程

arctec

openLooKeng v1.4.1 上线,OmniData Connector 来了

openLooKeng

大数据 openLooKeng

模块三作业-外包学生管理系统

二手攻城师

「架构实战营」

题目二:架构设计题

arctec

技术架构+应用场景揭秘,为什么高斯Redis比开源香?

华为云开发者联盟

数据库 redis 开源 云原生 高斯Redis

设计消息队列存储消息数据的MySQL表格

毛先生

MySQL打印死锁日志

Simon

MySQL 死锁

架构训练营 - 模块三作业

VegetableBird

架构训练营 架构实战营

懒人畅听网,有声小说类目数据采集,多线程速采案例,Python爬虫120例之23例

梦想橡皮擦

11月日更

【Flutter 专题】08 图解页面小跳转 (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

2021 年 Node.js 的发展趋势

CRMEB

模块三

创业自研技术团队筹建需要注意什么?

boshi

创业 团队管理

极客时间架构实战营作业八

jjn0703

架构实战营

[ CloudWeGo 微服务实践 - 08 ] Nacos 服务发现扩展 (1)

baiyutang

golang 微服务 11月日更

Flink CDC 2.0 数据处理流程全面解析

大数据技术指南

11月日更

毫米波 5G 比公共 Wifi 快近 30 倍,但覆盖范围相似

吴脑的键客

网络

Expedia 使用 WebSocket 和 Kafka 实现近实时的数据流查询_业务架构_InfoQ精选文章