HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

大数据分析: 结合 Hadoop 或 Elastic MapReduce 使用 Hunk

  • 2014-10-26
  • 本文字数:1219 字

    阅读完需:约 4 分钟

Hunk Splunk 公司一款比较新的产品,用来对 Hadoop 和其它 NoSQL 数据存储进行探测和可视化,它的新版本将会支持亚马逊的 Elastic MapReduce

结合 Hadoop 使用 Hunk

Hadoop 由两个单元组成,首先是被称为 HDFS 的存储单元,HDFS 可以分布在成千上万个复制的节点上。接下来是 MapReduce 单元,它负责跟踪和管理被命名为 map-reduce jobs 的作业。

之前,开发者会用到 Splunk Hadoop Connect (SHC) 连接器。SHC 通过常用的推模型(push model)来输出数据到 Hadoop 中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过 Splunk 来探测数据时,原始的数据会被吸收到 Splunk Server 来检索和处理。就像人们猜想的那样,这个过程并没有发挥出 Hadoop 计算能力的优势。

Hunk 通过提供与 Hadoop MapReduce 节点协同工作的适配器来解决这个问题。Splunk 的查询被转化成 Hadoop MapReduce 的作业,这些作业在 Hadoop 集群中处理,最终只有结果被取回到 Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk 提供了抽象层,以便用户和开发者不需要关心怎么去写 Hadoop MapReduce 的作业。Hunk 还能在 MapReduce 作业启动前就提供结果预览,以减少无用搜索的数量。

结合 Elastic MapReduce 使用 Hunk

亚马逊的 Elastic MapReduce 可以看做是对 Hadoop 的补充,同时也是 Hadoop 的竞争者。EMR 既可以运行在 Hadoop HDFS 集群上,也可以直接运行在 AWS S3 上。亚马逊宣称使用 AWS S3 的优势在于比 HDFS 集群更易于管理。

当运行 Elastic MapReduce 时,Hunk 提供了相同的抽象层和预览功能,就像它在 Hadoop 上做的一样。所以从用户的观点来看,在 Hadoop 和 EMR 之间切换不会造成什么变化。

云上的 Hunk

在云上托管 Hunk 的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对 Hunk 的运行实例进行手动配置以让它对应到正确的 Hadoop 或 AWS 集群上。

这个月的新版本里,Hunk 的运行实例可以在 AWS 上进行自动化配置,这包括自动发现 EMR 数据源,这样 Hunk 实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk 运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk 中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由 Hunk 来体现 Hadoop 和 EMR 集群处理的一种方式。从 Splunk 的用户界面上看,它们像是真正的索引,即使其数据处理是在 map-reduce 作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文: Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


感谢杨赛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-26 10:493187

评论

发布
暂无评论
发现更多内容

LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!

汀丶人工智能

人工智能 大模型 agent

使用RAG-GPT集成智谱AI、DeepSeek快速搭建OpenAI Cookbook智能客服

AI Inception

AIGC GPT LLM rag

京东按关键字搜索商品API(jd.item_search)返回值技巧分享

技术冰糖葫芦

API Explorer API 文档 API 性能测试

API安全为什么如此难搞?

芯盾时代

网络安全 物联网 终端安全 网关 API网关

软件测试学习笔记丨Selenium 键盘鼠标事件ActionChains

测试人

软件测试

高性能MySQL实战(一):表结构

京东科技开发者

上海云管平台怎么样?客服电话多少?

行云管家

云计算 数字化 云管平台 上海

IPQ9574, IPQ9554, and IPQ5322 Chips Performance Differences -WiFi 7 Solutions Technical Analysis

wifi6-yiyi

WiFi7 ipq9574

DR6018S: Achieve 808Mbps Stable Long-Distance PTP Transmission at 1.5km with the IPQ6010 WiFi 6 Chipset

wallyslilly

IPQ6010

KaiwuDB 受邀出席中国智能化油气管道与智慧管网技术交流大会

KaiwuDB

#数据库

使用RAG-GPT和Ollama搭建智能客服

AI Inception

GPT LLM rag Llama3

企业选择合适等保服务方案几点建议

行云管家

信息安全 等保 等级保护 等保测评

一文教你如何调用Ascend C算子

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号2024年5月PK榜

Ingress controller:Kubernetes 的瑞士军刀

NGINX开源社区

Kubernetes pod api 网关 Ingress Controller 负载均衡器

公链开发:深入探索与未来展望

dappweb

#区块链# 公链开发

华为云IoT专家实践分享,开源如何改变物联网?

华为云开发者联盟

物联网 华为云 华为云IoT 华为云开发者联盟 企业号2024年5月PK榜

OpenHarmony XTS认证分享

Laval小助手

OpenIM Bot: 用LLM构建企业专属的智能客服

AI Inception

AIGC ChatGPT LLM rag

马自达EZ-6:合资模式2.0的先锋,电动化时代的领航者

Geek_2d6073

423世界读书日,探索「读书艺术」与「工作技能」提升

京东科技开发者

为何整个 AI 领域都朝着 AI Agents 这一方向发展?

Baihai IDP

AI LLM 白海科技 企业号 5 月 PK 榜 AI Agents

[ICLR2024]基于对比稀疏扰动技术的时间序列解释框架ContraLSP

阿里云大数据AI技术

机器学习 阿里云 Iclr

AI日报|“蚂蚁技术日”首次对外开放 ,AI创新应用齐亮相;家教费拜拜,小度推“AI老师”学习机

可信AI进展

#人工智能

RAG-GPT实践过程中遇到的挑战

AI Inception

AIGC GPT LLM rag

大数据分析:结合 Hadoop或  Elastic MapReduce使用 Hunk_服务革新_Jonathan Allen_InfoQ精选文章