LinkedIn数据基础设施简介_架构_Ron Bodkin_InfoQ精选文章

来自 LinkedIn 的 Jay Kreps 在近日举办的 Hadoop 峰会上详细介绍了 LinkedIn 对数据的处理方式。Kreps 介绍了 LinkedIn 每天是如何处理 1.2 千亿个关系并通过高容量、低延迟的站点服务来混合大量的数据计算的。

LinkedIn 的很多重要数据都是离线的，移动起来相当慢。因此，他们将每天对 Hadoop 的批处理作为计算的重要组成部分。比如说，他们采用这种方式对其“People You May Know”产品数据进行预计算，这么做每天会在 mapreduce 管道（拥有 82 个 Hadoop job）中产生 1.2 千亿个关系，需要 16TB 的临时数据。这个 job 使用了一个统计模型来预测两个人认识的概率。有趣的是，他们使用布隆过滤器（bloom filters）来加速巨大的连接关系，这提升了10 倍的性能。

LinkedIn 有两个工程师从事这个管道开发，他们每周可以测试 5 个新算法。为了实现这种变化率，他们使用 A/B 测试来比较新旧方法，使用“fly by instruments”方法来优化结果。为了提升性能，他们还需要操纵大范围数据：使用大范围集群处理。为了实现这个目标，他们从客户化的图处理代码迁移到了 Hadoop mapreduce 代码上：这需要一些周全的设计，因为很多图算法无法直接转换为 mapreduce。

LinkedIn 对开源项目投入巨大，希望构建出一流的组件并号召社区参与进来。其中两个开源项目构成了其数据基础设施的中心。 Azkaban 是个面向 Hadoop 的开源工作流系统，提供了类似于 cron 的调度，类似于 make 的依赖分析，还包含了重启。它用于控制 ETL job，该 job 可以将数据库与事件日志推送到边缘服务器存储（Voldemort）中。

Voldemort 是 LinkedIn 的 NoSQL 键 / 值存储引擎。它每天都会向其站点推送出几十亿的边缘概率关系图，用于渲染网页时查询所用。这种数据是只读的：它是通过这些集群 job 计算出来的，但之后会实时通过搜索进行过滤，这么做会限定到用户感兴趣的某些公司，或是排除掉用户已经表明不认识的那些人。这个方法来源于使用数据库解决这个问题时所遇到的障碍，后者需要分片并迁移至完全依靠手工移动数据的系统。Voldemort 完全是分布式且去中心化的，支持分区与容错。

LinkedIn 通过同时获取 Hadoop 与 Voldemort 大范围的结果来更新服务器，预热缓存，然后分别在每个服务器上针对新一天的数据建立原子转换。他们会将前一天的数据保持在服务器上，这样一旦新一天的数据集出现了问题就可以立刻恢复过来。LinkedIn 在其 Hadoop 管道上构建了一个索引结构：这会产生几个 TB 的查找结构，该结构完美地使用了散列（每个键只需要 2.5 个位）。这种处理权衡了集群计算资源以实现更快的服务器响应；LinkedIn 大约需要 90 分钟时间在 45 个结点集群上构建 900GB 的数据。他们使用 Hadoop 来处理大块的批数据，这样其 Hadoop 集群就需要周期性地进行升级，但 Voldemort 则永远不需要。

感兴趣的读者可以查看演讲的幻灯片以进一步了解详情。

查看英文原文： LinkedIn’s Data Infrastructure

评论

发布

暂无评论

阿里是如何使用分布式架构的？阿里内部学习手册分享

Java全栈架构师

架构分布式微服务后端高并发

在世界舞台MBBF一骑绝尘：永远更快一步的北京5G是怎样炼成的？

专访韩向东｜元年科技：专业与技术并重，赋能财务数字化转型

元年技术洞察

数字化转型财务数字化

订单中心架构设计与实践

小小怪下士

Java 程序员系统架构架构设计

教你处理数仓慢SQL常见定位问题

华为云开发者联盟

数据库后端华为云企业号十月 PK 榜

手把手教你从安装CentOS7.4镜像开始，搭建IoT视频监控系统

华为云开发者联盟

后端开发华为云企业号十月 PK 榜

软件要想做的好，测试必定少不了

华为云开发者联盟

测试开发华为云企业号十月 PK 榜

JUC 浅析（四）

36氪｜元年科技发布新版数字化PaaS平台，更新多个组件

元年技术洞察

方舟 PaaS 中台战略企业数字化

JUC 浅析（三）

前端面试指南之JS面试题总结

JVM 组成结构分析

腾讯前端经典react面试题汇总

NAT基础：NAT技术原理，静态NAT、动态NAT、NAPT、Easy IP、NAT Server的原理，以及各NAT的配置方法和转换示例。

Python-派大星

软件测试丨接口测试该怎么做？持证上岗的Charles，可以帮你做什么？

软件测试接口测试 charles 测试开发

“程”风破浪的开发者｜学习中的境界

学习方法 “程”风破浪的开发者

FlyFish一周年，社区大咖邀你共话开源！

云智慧AIOps社区

低代码可视化数据可视化大屏可视化无代码

如何提升研发效能？我们先从指标谈起

数据分析指标管理

区块链≠绿色？波卡或成Web3“生态环保”标杆

One Block Community

区块链环保波卡生态

云小课｜MRS基础原理之Hudi介绍

华为云开发者联盟

大数据华为云企业号十月 PK 榜

深入理解JS作用域链与执行上下文

华为数通HCIA小型拓扑综合实验，运用OSPF动态路由协议、ACL访问控制列表，交换机生成树协议，修改交换机根桥、交换机划分vlan、链路聚合等相关数通技术、NAT地址转换以及NAT网络地址转换的配置

Python-派大星

对话创始人：团队研发效能应该如何管理和度量？

团队管理敏捷开发研发管理研发效能企业号十月PK榜

报名倒计时1天！平头哥、中科院软件所PLCT实验室等技术专家解读最新RISC-V技术

OpenAnolis小助手

报名 risc-v 云栖大会 Workshop 龙蜥峰会

KubeVela 插件指南：轻松扩展你的平台专属能力

阿里巴巴云原生

阿里云开源容器云原生 KubeVela

数字化时代，企业如何创新自己的客户服务

ACL访问控制列表基础、创建ACL访问控制列表的两种方式、配置ACL访问控制列表规则、修改ACL规则的默认步长。子网掩码、反掩码、通配符掩码的区别和作用。

Python-派大星

要努力，但也别焦虑

从清华大学到苏州经贸，双一流和普通高校都在使用的数据科学教学实训平台

大数据人才培养数据竞赛实训教学

前端面试中小型公司都考些什么

问：你是如何进行react状态管理方案选择的？