写点什么

Pinterest 使用 MemSQL 和 Spark Streaming 进行实时数据分析

  • 2015-04-19
  • 本文字数:825 字

    阅读完需:约 3 分钟

Pinterest 是一家提供可视化书签工具的公司,这种工具可以帮助人们发现并保存有创意的想法,目前这家公司正使用实时数据分析来达到以数据驱动决策的目的。实验中使用了 MemSQL Spark 这样的技术,用以分析来自全球的用户实时行为信息。

通过 MemSQL 和 Spark,Pinterest 创建了一条数据管道。这条管道通过 Apache Kafka 使数据流入 MemSQL,并且通过 Spark Streaming API 向 Spark 输入数据(译者注:数据流向是 Kafka -> Spark -> MemSQL ,见图 1)。这个方案对了解全球用户如何使用 Pins(译者注:即可视化书签)提供了实时性的洞察。这有助于 Pinterest 成为一个更好的推荐引擎,它可以显示相关的 Pins,人们会在不同的场景下来使用这种服务,比如为购物、去某个地方和烹饪食谱做个计划。

Pin 的行为数据(engagement data)先被送入到 Kafka 主题(Topic)中,接着它被 Spark streaming 作业消耗掉。作业中每个 Pin 会进行过滤,然后加上其地理位置和 Pin 的类别来充实其信息。接着再通过 MemSQL Spark 连接器(MemSQL Spark Connector)将充实后的信息持久化到 MemSQL 数据库中以提供查询服务。MemSQL Spark 连接器提供了 Spark 读写 MemSQL 数据库的工具,它使用 MemSQL RDD(Resilient Distributed Dataset)从 MemSQL 读取数据。

综上所述,这个方案框架可以支持实时地收集、存储和处理用户行为数据。同时,它也可以帮助获得下面这些能力:

  • 高性能事件日志:即使用一个叫 Singer 的代理来收集事件日志,然后把它们运送到集中的数据仓库中。
  • 可靠的日志传输和存储:即通过 Apache kafka 和一个叫 Secor 的持久化服务来可靠将这些事件写入到长期数据存储 Amazon S3 中。Secor 在设计上克服了 S3 的弱最终一致性模型(weak eventual consistency model)的缺陷,没有数据丢失而且支持水平扩展和可选的基于日期的数据分片。
  • 基于实时数据的快速查询:即在实时事件到达时就对它们执行 SQL 查询。

查看英文原文 Real-time Data Analytics at Pinterest using MemSQL and Spark Streaming

2015-04-19 05:594074

评论

发布
暂无评论
发现更多内容

ERC20代币开发如何影响区块链环境

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 NFT开发

火山引擎ByteHouse与白鲸开源完成兼容性认证,加速数据价值释放

字节跳动数据平台

大数据 数据仓库 云原生 大数据仓库 企业号9月PK榜

【中秋国庆不断更】OpenHarmony多态样式stateStyles使用场景

OpenHarmony开发者

人生最优解:体验最极致的人生

少油少糖八分饱

人生 回忆 体验 阅读笔记 死前归零

【中秋国庆不断更】HarmonyOS对通知类消息的管理与发布通知(下)

HarmonyOS开发者

兼顾友好与安全,隐私协议 Unijoin 助推新一轮 Web3 浪潮

股市老人

ps滤镜Neural Filters完整版 for Mac 无需登陆Adobe Id

南屿

PS滤镜插件 Neural Filters滤镜 神经滤镜Neural Filters photoshop神经滤镜 Neural Filters下载

简单易用的程序创建工具:VMware InstallBuilder Enterprise激活版

mac大玩家j

软件推荐 Mac软件

Trapcode套装插件Particular粒子插件安装教程 附Particular序列号

南屿

Trapcode Particular插件 3D粒子插件 After Effects

实测 亚马逊 AI 编程助手 Amazon CodeWhisperer(全网最全)

亚马逊云科技 (Amazon Web Services)

人工智能 存储 亚马逊云科技

国庆假期,我用Flutter写了个我自己都玩不赢的五子棋AI🤣

编程的平行世界

flutter 游戏

打造完美RAW文件处理流程!Adobe Camera Raw插件功能详解!

南屿

Camera Raw激活版 CameraRaw mac版 raw图像 Camera Raw 15

超清动态壁纸软件Dynamic Wallpaper 最新激活中文版

mac大玩家j

动态壁纸 Mac软件 视频动态壁纸 壁纸软件

2023-10-04:用go语言,现有一棵无向、无根的树,树中有 n 个节点,按从 0 到 n - 1 编号 给你一个整数 n 和一个长度为 n - 1 的二维整数数组 edges , 其中 edge

福大大架构师每日一题

福大大架构师每日一题

Python 列表操作指南3

小万哥

Python 程序员 软件 后端 开发

支持宽屏格式的音乐播放器 Swinsian免激活最新

胖墩儿不胖y

可以替代访达的文件管理器 Path Finder 激活中文版

mac大玩家j

文件管理 Mac软件 文件管理器

公链如何开发?怎么开发一条可靠的公链

V\TG【ch3nguang】

icon图标设计制作 Image2icon最新激活版中文

胖墩儿不胖y

图标制作 图标工具 icon

活动报名与缴费小程序开发笔记一

CC同学

布隆过滤器:原理与应用

Java随想录

Java redis

Delicious Retouch 5 (DR 5)汉化激活版 高效解决人像磨皮!

南屿

DR5白金版 PS一键磨皮插件 Delicious Retouch 5 DR5汉化版 Photoshop修图插件

探索Redis与MySQL的双写问题:挑战与解决方案

Java随想录

Java MySQL redis

mac平台上好用的解压缩工具:RAR Extractor激活中文版

mac大玩家j

Mac软件 解压软件 解压缩工具

Ae视频特效工具:After Effects 2023激活中文最新版

胖墩儿不胖y

Mac软件 AE 视频特效软件

AE镜头光晕插件Optical Flares汉化版 optical flares插件安装方法(含注册码)

南屿

AE镜头光晕插件 Optical Flares注册码 Optical Flares插件安装

如何通过PG-Pool-II来搭建一个高可用Postgresql集群

Kevin_913

数据库 postgresql 高可用集群

Pinterest使用MemSQL和Spark Streaming进行实时数据分析_大数据_Srini Penchikala_InfoQ精选文章