对于如何将流行的 Apache Hadoop MapReduce 框架运行于 Amazon EC2 之上,老早之前就已经有教程了。今天 Amazon 通过 Amazon Elastic MapReduce 对其提供了官方支持,不断改善自身。从其产品页面可看到:
Amazon Elastic MapReduce 自动地在 Amazon EC2 实例上驱动一个 MapReduce 框架的 Hadoop 实现,将任务流中的数据分解为更小的块以用于并行处理 (“map”函数),并最终将处理后的数据重新组合在一起成为最后结果 (“reduce”函数)。Amazon S3 作为被分析的数据源,并作为最终结果输出的目的地。
Amazon Elastic MapReduce 的价格是在现有 EC2 的收费之上的 15% 比率。其 FAQ 上有一个关于价格和使用的完整列表。AWS的官方博客也提供了报道:
…Elastic MapReduce 的处理是围绕着任务流这一概念为中心来开展的。每个任务流包含一步或者多步。第一步从 Amazon S3 输入一定的数据,再将其分配给指定数量的运行 Hadoop 的 EC2 实例 (如果需要的话,驱动这一实例),完成所有的工作,再将结果写回 S3。每个步骤必须参考应用特定的“mapper”和 / 或“reducer”代码 (Java JARS 或是通过流模型使用的脚本代码)。我们同时还包含进了集合包,对一系列诸如和,最小,最大,历史图以及计数等等的公共操作提供了内置的支持。在你开始写代码之前就已经有很多事情搞定了! 我们提供了三种不同的访问 Elaastc MapReduce 的途径。你可以通过 Elastic MapReduce API 获取完全的控制,你也可以使用 Elastic MapRedue 命令行工具,或者在 AWS 管理控制台的 Elastic MapReduce 标签页通过点击进行操作!让我们分别来看每一个…
ZDNet 的 Dana Gardner 推测 这暗示了Amazone 将在商业智能市场推出新的产品。
评论