写点什么

LinkedIn 数据基础设施简介

  • 2010-08-19
  • 本文字数:1180 字

    阅读完需:约 4 分钟

来自 LinkedIn 的 Jay Kreps 在近日举办的 Hadoop 峰会上详细介绍了 LinkedIn 对数据的处理方式。Kreps 介绍了 LinkedIn 每天是如何处理 1.2 千亿个关系并通过高容量、低延迟的站点服务来混合大量的数据计算的。

LinkedIn 的很多重要数据都是离线的,移动起来相当慢。因此,他们将每天对 Hadoop 的批处理作为计算的重要组成部分。比如说,他们采用这种方式对其“People You May Know”产品数据进行预计算,这么做每天会在 mapreduce 管道(拥有 82 个 Hadoop job)中产生 1.2 千亿个关系,需要 16TB 的临时数据。这个 job 使用了一个统计模型来预测两个人认识的概率。有趣的是,他们使用布隆过滤器(bloom filters)来加速巨大的连接关系,这提升了10 倍的性能。

LinkedIn 有两个工程师从事这个管道开发,他们每周可以测试 5 个新算法。为了实现这种变化率,他们使用 A/B 测试来比较新旧方法,使用“fly by instruments”方法来优化结果。为了提升性能,他们还需要操纵大范围数据:使用大范围集群处理。为了实现这个目标,他们从客户化的图处理代码迁移到了 Hadoop mapreduce 代码上:这需要一些周全的设计,因为很多图算法无法直接转换为 mapreduce。

LinkedIn 对开源项目投入巨大,希望构建出一流的组件并号召社区参与进来。其中两个开源项目构成了其数据基础设施的中心。 Azkaban 是个面向 Hadoop 的开源工作流系统,提供了类似于 cron 的调度,类似于 make 的依赖分析,还包含了重启。它用于控制 ETL job,该 job 可以将数据库与事件日志推送到边缘服务器存储(Voldemort)中。

Voldemort 是 LinkedIn 的 NoSQL 键 / 值存储引擎。它每天都会向其站点推送出几十亿的边缘概率关系图,用于渲染网页时查询所用。这种数据是只读的:它是通过这些集群 job 计算出来的,但之后会实时通过搜索进行过滤,这么做会限定到用户感兴趣的某些公司,或是排除掉用户已经表明不认识的那些人。这个方法来源于使用数据库解决这个问题时所遇到的障碍,后者需要分片并迁移至完全依靠手工移动数据的系统。Voldemort 完全是分布式且去中心化的,支持分区与容错。

LinkedIn 通过同时获取 Hadoop 与 Voldemort 大范围的结果来更新服务器,预热缓存,然后分别在每个服务器上针对新一天的数据建立原子转换。他们会将前一天的数据保持在服务器上,这样一旦新一天的数据集出现了问题就可以立刻恢复过来。LinkedIn 在其 Hadoop 管道上构建了一个索引结构:这会产生几个 TB 的查找结构,该结构完美地使用了散列(每个键只需要 2.5 个位)。这种处理权衡了集群计算资源以实现更快的服务器响应;LinkedIn 大约需要 90 分钟时间在 45 个结点集群上构建 900GB 的数据。他们使用 Hadoop 来处理大块的批数据,这样其 Hadoop 集群就需要周期性地进行升级,但 Voldemort 则永远不需要。

感兴趣的读者可以查看演讲的幻灯片以进一步了解详情。

查看英文原文: LinkedIn’s Data Infrastructure

2010-08-19 09:553661
用户头像

发布了 88 篇内容, 共 263.1 次阅读, 收获喜欢 8 次。

关注

评论

发布
暂无评论
发现更多内容

活动火热报名中|搜索进化论:基于大模型的企业级AI搜索

阿里云大数据AI技术

人工智能 AI搜索 搜索开发工作台

未完待续

Anliven

职业发展 价值

如何在Ubuntu 20.04|18.04上安装FreeSwitch

百度搜索:蓝易云

数据工程(三):数据桥梁的基石——深度剖析数据集成与整合中的采集艺术

数造万象

数据治理 数据采集 数据集成 数据孤岛 数据工程

得物App白屏优化系列|归因篇

得物技术

android 稳定性 企业号2024年8月PK榜

大模型在研发数据中台的应用实践

百度Geek说

大模型 研发、 数据库· 产品架构

地理围栏,打造智能生活新边界

HarmonyOS SDK

HarmonyOS

积硅步以致千里,积怠惰以致深渊

Anliven

成长 激励

淘宝商品评论API:深入探索商品使用场景与评价信息

代码忍者

火山引擎携手居然之家,共推家居行业的数智化发展

新消费日报

“京东云深海数据平台” 焕新升级 免费体验!

京东科技开发者

浅析Jetty与tomcat区别

百度搜索:蓝易云

智源研究院举办第二期“数据与行业应用Workshop”

智源研究院

链动2+1系统模式开发搭建

V\TG【ch3nguang】

QCN9074: The Future of High-Performance Wireless Solutions

wallyslilly

QCN9074 QCN9024

Linux中的chsh命令及示例

百度搜索:蓝易云

DockerCompose部署es和kibana

百度搜索:蓝易云

仓储管理这些坑,你有没有经历过?

天津汇柏科技有限公司

低代码 AI 人工智能

文化产业怎么定义?需要用到堡垒机吗?

行云管家

文化 堡垒机 文化产业

天翼云HBlock:Step by step,一杯咖啡的时间轻松搭建企业存储集群

三掌柜

天翼云HBlock

Databend Meta-Service 架构概述

Databend

如何选择合适的云桌面系统方案?

上海锐起科技

缓存预热有哪些方案?

江南一点雨

有效阅读

Anliven

方法 个人提升 阅读

Linux安装nginx

六哥是全栈

Linux NGINX 安装

讯飞星火版「Her」正式上线!成立仅16月的无问芯穹完成近5亿元A轮融资|AI日报

可信AI进展

人工智能 | Mistral 大语言模型

测试人

人工智能 软件测试

廊坊具有资质等保测评机构叫做什么?位于哪里?

行云管家

网络安全 数据安全 堡垒机 廊坊

Mybatis-Plus常见注解

百度搜索:蓝易云

十五年以来 — 战略性云平台服务的演进路径之全面呈现(含亚马逊、微软和谷歌)

Moehoo猛虎

微软 AWS 云服务 Gartner 魔力象限

LinkedIn数据基础设施简介_架构_Ron Bodkin_InfoQ精选文章