QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

大数据分析: 结合 Hadoop 或 Elastic MapReduce 使用 Hunk

  • 2014-10-26
  • 本文字数:1219 字

    阅读完需:约 4 分钟

Hunk Splunk 公司一款比较新的产品,用来对 Hadoop 和其它 NoSQL 数据存储进行探测和可视化,它的新版本将会支持亚马逊的 Elastic MapReduce

结合 Hadoop 使用 Hunk

Hadoop 由两个单元组成,首先是被称为 HDFS 的存储单元,HDFS 可以分布在成千上万个复制的节点上。接下来是 MapReduce 单元,它负责跟踪和管理被命名为 map-reduce jobs 的作业。

之前,开发者会用到 Splunk Hadoop Connect (SHC) 连接器。SHC 通过常用的推模型(push model)来输出数据到 Hadoop 中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过 Splunk 来探测数据时,原始的数据会被吸收到 Splunk Server 来检索和处理。就像人们猜想的那样,这个过程并没有发挥出 Hadoop 计算能力的优势。

Hunk 通过提供与 Hadoop MapReduce 节点协同工作的适配器来解决这个问题。Splunk 的查询被转化成 Hadoop MapReduce 的作业,这些作业在 Hadoop 集群中处理,最终只有结果被取回到 Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk 提供了抽象层,以便用户和开发者不需要关心怎么去写 Hadoop MapReduce 的作业。Hunk 还能在 MapReduce 作业启动前就提供结果预览,以减少无用搜索的数量。

结合 Elastic MapReduce 使用 Hunk

亚马逊的 Elastic MapReduce 可以看做是对 Hadoop 的补充,同时也是 Hadoop 的竞争者。EMR 既可以运行在 Hadoop HDFS 集群上,也可以直接运行在 AWS S3 上。亚马逊宣称使用 AWS S3 的优势在于比 HDFS 集群更易于管理。

当运行 Elastic MapReduce 时,Hunk 提供了相同的抽象层和预览功能,就像它在 Hadoop 上做的一样。所以从用户的观点来看,在 Hadoop 和 EMR 之间切换不会造成什么变化。

云上的 Hunk

在云上托管 Hunk 的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对 Hunk 的运行实例进行手动配置以让它对应到正确的 Hadoop 或 AWS 集群上。

这个月的新版本里,Hunk 的运行实例可以在 AWS 上进行自动化配置,这包括自动发现 EMR 数据源,这样 Hunk 实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk 运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk 中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由 Hunk 来体现 Hadoop 和 EMR 集群处理的一种方式。从 Splunk 的用户界面上看,它们像是真正的索引,即使其数据处理是在 map-reduce 作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文: Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


感谢杨赛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-26 10:493359

评论

发布
暂无评论
发现更多内容

统一、飞鹤等快消龙头企业,如何抓住未来10年数智化的机遇?

用友BIP

用友iuap 用友技术大会 快消行业

如何创造数据资产价值?如何对内赋能业务运营,对外创造市场价值?

星环科技

数据资产 数据要素流通

电信及互联网行业数据安全内控审计建设实践 | 盾见

极盾科技

数据安全

华为ISDP数字化现场作业:数字化转型助力电力行业安监风险管控

轶天下事

分布式技术剖析

星环科技

分布式

Matlab实现蚂蚁群算法

Shine

三周年征文

15个值得收藏的数据可视化开源工具

2D3D前端可视化开发

数据可视化 数据可视化工具 前端数据可视化 数据可视化设计 数据可视化软件

关于聚合根,领域事件的那点事---深入浅出理解DDD | 京东云技术团队

京东科技开发者

DDD 企业号 4 月 PK 榜 聚合根 领域事件

用友iuap 让企业数智化能力深入、让业务价值浅出

用友BIP

用友 用友iuap 用友技术大会 数智底座

MySQL8.0.32的安装与配置

Java你猿哥

Java MySQL ssm Java工程师

SQL数据库管理:RazorSQL 激活版

真大的脸盆

Mac 数据库管理工具 Mac 软件 数据库软件

企业如何两步实现数据资产化?

星环科技

数据资产化

字节二面:HashMap线程不安全体现在哪里?

Java你猿哥

Java 线程 ssm 架构师 HashMap底层原理

如何在微服务下保证事务的一致性 | 京东云技术团队

京东科技开发者

架构 微服务 事务 一致性 企业号 4 月 PK 榜

浅谈测试用例设计 | 京东云技术团队

京东科技开发者

测试 测试用例 测试用例设计 企业号 4 月 PK 榜

校企共建|阿里云与西安电子科技大学人才培养交流会顺利举行

云布道师

校企合作

低代码+智能化,企业数字化提速的又一场革命

科技热闻

Databend Parser 快速入门

Databend

分布式存储技术(上):HDFS 与 Ceph的架构原理、特性、优缺点解析

星环科技

hdfs 分布式存储 Ceph

聊聊「低代码」的实践之路

Java 架构 低代码

请查收!一份2023年程序员不得不看的自救提升指南(彩色终极版)

Java你猿哥

Java 面试 JVM 面经

大语言模型的本质:会思考的狗、聪明的马和随机鹦鹉

FN0

AIGC 大语言模型

企业号 5 月 PK 榜,火热开启!

InfoQ写作社区官方

热门活动 企业号 5 月 PK 榜

Python面试题

袁袁袁袁满

三周年连更

第十七届工程建设行业信息化发展大会成功举办,华为工单宝表现亮眼

YG科技

电力行业信息化年会 华为解读“低碳、安全、发展”新思路

YG科技

华为ISDP数字化现场作业,如何助力电力行业安监风险管控?

YG科技

企业数据平台建设的基石:构建统一的数据存算能力

星环科技

存算能力

【专栏 03】数据仓库、数据集市、数据湖,你的企业更适合哪种数据管理架构?

星环科技

数据架构

构建系列之webpack窥探上

江湖修行

前端 Web webpack cli 构建

硬核!阿里P8耗时6月打造的架构师速成手册,颠覆你对架构师的认知

Java你猿哥

架构 分布式 ssm 软件架构 架构师

大数据分析:结合 Hadoop或  Elastic MapReduce使用 Hunk_服务革新_Jonathan Allen_InfoQ精选文章