写点什么

MapReduce 模式、算法和用例

  • 2012-02-15
  • 本文字数:838 字

    阅读完需:约 3 分钟

随着 Hadoop 和大数据应用的爆发式增长,很多人正在寻找将他们已有的实现转为 MapReduce 方式的方法。不幸的是,除了《应用 MapReduce 进行数据密集的文本处理》《Mahout in Action》几本有名书籍之外,很少有关设计 MapReduce 实现的出版物。在新文章“MapReduce 模式、算法和用例”中,Ilya Katsov 提供了一个系统化的综述,阐述了能够应用 MapReduce 框架解决的问题。

文章开始描述了一个非常简单的、作为通用的并行计算框架的 MapReduce 应用,这个框架适用于很多要求大量节点进行的计算和数据密集型计算,包括物理和工程仿真,数值分析,性能测试等等。接下来是一组算法,通常用于日志分析、ETL 和数据查询,包括计数及求和,数据整理(基于特定函数),过滤,解析,验证和排序。

第二大部分是关于 MapReduce 模式,Katsov 讨论了包括多关系形 MapReduce 模式,通常用于数据仓库应用程序。这些模式在 Hive 和 Pig 实现中广泛使用,并包括基于推断 / 函数的数据选择,数据预测、数据联合、差分、交集和分组等聚集计算。另一个讨论是关于实现数据关联和包含等算法,例如 repartition join 和重复联合。

更进一步,这篇文章讨论了更为复杂的 MapReduce 处理算法,包括图处理、搜索算法(广度优先搜索)、page rank 数据集合算法,这些算法应用于图分析、web 索引和通用搜索应用。文章也涵盖了常见的、需要互相关计算的文本分析和市场分析的用例。这部分包含了”pairs“和”stripes”设计模式和它们的相对优劣。

最后,Katsov 给出了一个在机器学习领域实现更复杂 MapReduce 的很好的参考书目。

文中描述的大多数算法都有伪代码描述及它们的适用性,优势、劣势和一些真实的用例。

如今很多人仍面临应用 Hadoop 和 MapReduce 解决业务问题的困扰。有些人仍然认为 MapReduce 是“搜索业务问题领域的技术手段”。这篇文章是填补 MapReduce 算法、用例和设计模式空缺的重要一步。它展示了 MapReduce 强大的力量,而不仅仅是用那个声名狼藉的“词语计数”例子,并显示了 MapReduce 可以解决众多实际问题的方式。

2012-02-15 08:526580
用户头像

发布了 32 篇内容, 共 86888 次阅读, 收获喜欢 1 次。

关注

评论

发布
暂无评论
发现更多内容

秘乐短视频挖矿系统开发详情

开发微hkkf5566

双因子与多因子身份验证有什么区别?

SEAL安全

身份验证

自从用了 Kiali 以后才知道,配置 Istio 的 流量管理 是如此容易

万猫学社

云原生 istio envoy kiali

后台权限系统的设计以及主流的五种权限模型详解

Java全栈架构师

Java 程序员 架构 面试 后端

一次多表关联顺序的慢查询——TiDB 关联特性

TiDB 社区干货传送门

性能调优

WindTerm:新一代开源免费的终端工具,GitHub星标6.6k+,太酷了!

沉默王二

GitHub 终端工具

【7.29-8.5】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

内存问题难定位,那是因为你没用ASAN

华为云开发者联盟

云计算 开发 内存

不是吧?还有人不会定位线上MySQL慢查询问题?

Java永远的神

Java MySQL 数据库 程序员 面试

硅谷来信:快速行动,Facebook、Quora等成功的“神器”!

博文视点Broadview

数据治理体系演进简介

网易数帆

大数据 数据治理 元数据 数据标准

开源一夏 | Java格式化日期 微秒

六月的雨在InfoQ

开源 8月月更

centOS7.3 安装启用 iptables 记录

JavaPub

Linux centos7 iptables

文盘Rust -- 配置文件解析

TiDB 社区干货传送门

开发语言

HDD杭州站•ArkUI让开发更灵活

HarmonyOS开发者

HarmonyOS

Python开启虚拟环境

技术小生

8月月更 Python虚拟环境

2022年6月互联网医疗领域月度观察

易观分析

医疗 市场

即刻报名|Apache Kylin X Apache DolphinScheduler:大数据底座的构建和展望

Kyligence

数字化转型 数字分析 数据调度

多业务模式下的交易链路探索与实践

转转技术团队

中台 状态机 FSM

Apache APISIX Ingress v1.5-rc1 发布

API7.ai 技术团队

APISIX kubenetes Ingress Controller

2022 CCF国际AIOps挑战赛决赛暨AIOps研讨会报名已开启

BizSeer必示科技

人工智能 阿里云 华为云 信通院

关注微信公众号,自动登陆网站

源字节1号

微信小程序

有多一只“手”的机器狗出没?就在昇腾AI开发者创享日·南京站

科技热闻

五大理由告诉你为什么开发人员选择代码质量静态分析工具Klocwork来实现软件安全

龙智—DevSecOps解决方案

静态代码分析 代码静态分析 SAST工具 SAST

官方发布·2022南京智博会定于10月份在新庄国展召开

AIOTE智博会

没开发人员,接到开发物联网系统的活儿,干不干?

AIRIOT

低代码 物联网 低代码,项目开发

版本控制篇 | 龙智邀您共赴GOPS全球运维大会,探索大规模、敏捷、高质量、开放式的软件研发与运营之路

龙智—DevSecOps解决方案

运维 DevSecOps GOPS大会

手摸手带你 在 Windows 系统中安装 Istio

万猫学社

云原生 istio windows

sync-diff-inspector 使用实践

TiDB 社区干货传送门

6.x 实践

莅临GOPS大会龙智展位,获取Forrester最新报告:《Forrester Wave™:2021年第四季度企业服务管理报告》

龙智—DevSecOps解决方案

ITSM Forrester Wave Forrester

SonarQube即将亮相第十八届GOPS全球运维大会

龙智—DevSecOps解决方案

代码安全 GOPS大会 运维、 代码质量检测工具

MapReduce模式、算法和用例_架构_Boris Lublinsky_InfoQ精选文章