写点什么

Pinterest 使用 MemSQL 和 Spark Streaming 进行实时数据分析

  • 2015-04-19
  • 本文字数:825 字

    阅读完需:约 3 分钟

Pinterest 是一家提供可视化书签工具的公司,这种工具可以帮助人们发现并保存有创意的想法,目前这家公司正使用实时数据分析来达到以数据驱动决策的目的。实验中使用了 MemSQL Spark 这样的技术,用以分析来自全球的用户实时行为信息。

通过 MemSQL 和 Spark,Pinterest 创建了一条数据管道。这条管道通过 Apache Kafka 使数据流入 MemSQL,并且通过 Spark Streaming API 向 Spark 输入数据(译者注:数据流向是 Kafka -> Spark -> MemSQL ,见图 1)。这个方案对了解全球用户如何使用 Pins(译者注:即可视化书签)提供了实时性的洞察。这有助于 Pinterest 成为一个更好的推荐引擎,它可以显示相关的 Pins,人们会在不同的场景下来使用这种服务,比如为购物、去某个地方和烹饪食谱做个计划。

Pin 的行为数据(engagement data)先被送入到 Kafka 主题(Topic)中,接着它被 Spark streaming 作业消耗掉。作业中每个 Pin 会进行过滤,然后加上其地理位置和 Pin 的类别来充实其信息。接着再通过 MemSQL Spark 连接器(MemSQL Spark Connector)将充实后的信息持久化到 MemSQL 数据库中以提供查询服务。MemSQL Spark 连接器提供了 Spark 读写 MemSQL 数据库的工具,它使用 MemSQL RDD(Resilient Distributed Dataset)从 MemSQL 读取数据。

综上所述,这个方案框架可以支持实时地收集、存储和处理用户行为数据。同时,它也可以帮助获得下面这些能力:

  • 高性能事件日志:即使用一个叫 Singer 的代理来收集事件日志,然后把它们运送到集中的数据仓库中。
  • 可靠的日志传输和存储:即通过 Apache kafka 和一个叫 Secor 的持久化服务来可靠将这些事件写入到长期数据存储 Amazon S3 中。Secor 在设计上克服了 S3 的弱最终一致性模型(weak eventual consistency model)的缺陷,没有数据丢失而且支持水平扩展和可选的基于日期的数据分片。
  • 基于实时数据的快速查询:即在实时事件到达时就对它们执行 SQL 查询。

查看英文原文 Real-time Data Analytics at Pinterest using MemSQL and Spark Streaming

2015-04-19 05:594104

评论

发布
暂无评论
发现更多内容

第1章-《Linux一学就会》-Linux课程介绍-学习环境搭建

学神来啦

Linux 运维 contos

智能汽车安全保障亟待加强,熵核科技助力“人车互联”

熵核科技

系统安全 自动驾驶安全

博睿数据 短信服务监测解决方案专场直播

博睿数据

LDAP是什么意思?有什么用?

行云管家

运维 服务器 AD域 目录

你真的了解Redis单线程为什么如此之快吗?

Linux服务器开发

数据库 redis 多线程 Linux服务器开发 单线程

Opus从入门到精通(三)手撸一个Opus编码程序

轻口味

音视频 9月日更 Andriod

聊聊汽车ECU中单片机开发

SOA开发者

车载控制单元

足以封神的SpringCloudAlibaba问世,看过的人都已经“登仙”了

Java 程序员 面试 springboot 计算机

基于MySQL binlog日志,实现Elasticsearch近实时同步实践

Java MySQL 编程 架构 计算机

声网推出首个完整实时合唱解决方案 即将上线“咪哒”全国线下K歌房

声网

人工智能 音频体验

北鲲云探索医药研发,云计算再添新应用场景

北鲲云

代码的艺术

百度开发者中心

最佳实践 方法论 代码

行云创新亮相“OSCAR开源产业大会”:云调试加速应用创新

行云创新

人民币突传大好消息,首款数字货币“官宣”了!

CECBC

Neuron v1.3.2 正式发布:新 logo、新界面、新可能

EMQ映云科技

边缘计算 网关 边缘流式数据 边云协同 emq

字节4轮面试,拿43k*15 Offer!全靠过硬实力+1290题面试神技手册

Java 架构 面试 后端 计算机

区块链技术,让数字政务跑出“加速度”

CECBC

面试官:MySQL的幻读是怎么被解决的?

Java MySQL 编程 架构 后端

模块八作业

Clarke

做安全操作系统,这位技术老兵是认真的!

熵核科技

安全操作系统

30天读完300页,这份Alibaba面试通关手册,助我“闯进”字节跳动拿下offer

Java spring 编程 架构

【WIC•资讯】世界智能大会组委会秘书处祝贺 2021中国(天津)非公有制经济发展论坛圆满召开

InfoQ 天津

DDD实战分享-消息中心

麦麦

微服务 gRPC DDD 领域驱动设计DDD

【等保三级】过等保三级需要哪些设备?大概多少钱?

行云管家

网络安全 信息安全 等保 堡垒机 等保三级

阿里初面被两道编程题给干掉?,再次内推终上岸(已拿电子offer)

今晚早点睡

Java Alibaba

滨海新区新的社会阶层人士开展“寻美.天津”主题活动

InfoQ 天津

区块链 ≠ 分布式存储

趣链科技

区块链 分布式 存储

得偿所愿!字节4面斩下2-2Offer,入职就是30K16薪,相信你们也可以!

Java 程序员 字节跳动 面试 计算机

隐私计算﹢区块链:让数据真正成为生产要素

CECBC

Phaser类在性能测试中应用

FunTester

多线程 性能测试 测试框架 FunTester phaser

Growing 账号认证实践

GrowingIO技术专栏

spring security CAS SSO ldap

Pinterest使用MemSQL和Spark Streaming进行实时数据分析_大数据_Srini Penchikala_InfoQ精选文章