IBM Alphaworks 网站发布了一个新的Eclipse 插件,使用开源Java MapReduce 框架Hadoop 来简化应用程序的开发。Hadoop 框架最初的产生是为了支持 Nutch 项目。Hadoop 包含了一个分布式文件系统以及一个 MapReduce 实现。MapReduce 是被 Google 广泛采用的编程结构,用于在集群内部进行海量数据集的并行处理。今年在Hadoop 上所做的集成工作使得在Amazon 的EC2 平台上运行Hadoop MapReduce 应用和使用Amazon 的S3 平台进行存储等更为容易。 Amazon Web 服务博客表示:“由于 EC2 实体和存储于 S3 上的数据之间的带宽尚未度量或发布,这是处理大量数据的一种很节约成本的方式”。
IBM MapReduce 插件包含以下功能:
- 允许 Java™项目以 JAR(Java Archive)文件形式打包并部署到(本地和远程的)Hadoop 服务器上
- 提供辅助开发过程的备忘单(Cheat Sheets)
- 增加了一个独立的 Eclipse 透视图(Perspective),以及用于显示 Hadoop 服务器、Hadoop 分布式文件系统(DFS)和当前任务状态的视图
- 提供了一些向导,使基于 MapReduce 框架的类的开发变得更加容易
此外,它还包括了改进的备忘单,并且完全兼容 OS X。插件使用 SCP 和 SSH 与 Hadoop 服务器进行交互,通过 HTTP 协议获取工作状态。
评论