VMware 最近宣布,他们已经开始提供 Spring Hadoop,这个项目整合了 Spring 框架和 Apache Hadoop 平台。该项目提供了一种方便的机制,让我们可以通过 Spring 容器来配置、创建和执行各种各样的服务和工具,像 MapReduce 、 Hive 、 Pig 和 Cascading 作业等。此外,该项目还通过 JVM 脚本语言——像 Groovy、JRuby、Jython 和 Rhino——提供了对 HDFS 数据访问的支持,为 HBase 提供了声明式配置的支持,以及对 Hadop 工具(包括 FS Shell 和 DistCp )提供了声明和编程的支持。
可能更有意义的是,工具还为基于 Spring 的应用程序提供了一种便利方式,可以使用 Hadoop 作为数据分析工具,而这些数据可能来自多个源,像 Spring Integration 和 Spring Batch,以及传统的关系型数据库等等。“例如,你可以让 Hadoop 作业成为 Spring Batch 环境中的 tasklet,从而我们可以开始对其进行调整,并在作业完成时拥有触发器,”SpringSource 的 CTO,Adrian Colyer 告诉 InfoQ。
或者我们可能让 Spring Integration 来监控目录中是否有文件进入,然后使用它作为触发器来初始化 Hadoop 作业。你可以开始真正把这集成到 Spring 中,并使用所有其它组件把 Hadoop 以及各种数据处理工具连接到标准的企业工具集中。
这个项目和 Spring Data 项目最初的适用范围更普遍,这反映出在企业应用程序中 NoSQL 和大数据越来越重要。Colyer 解释说:
在很长一段时间之后,可能是十年之后,当来自于企业应用程序的数据想要知道,“我如何与关系型数据库对话?”,而解决方案很显而易见,企业数据现在看起来已经很不一样了。我们已经看到有不同的存储和方法,并且越来越明显,企业数据的一种非常重要并且不断成长的方式就是大数据和批量数据处理。
这样,和新发布的 Hadoop 项目一样,它更广泛的目标是为各种不同样式的 SQL 和 NoSQL 数据库——关系型数据库、图型数据库、文档数据库、键值数据库等等——提供一等支持,并显式地支持某些那种更流行的产品类型。当前这包括对 JPA 的支持,还有 MongoDB 、 Redis 和 Neo4J ,并且 Cassandra 方面也在进行中。Colyer 认为这个列表反映出当前 SpringSource 的企业用户中处于领先地位的产品,但是需要强调的是,在大多数大型企业中,对 NoSQL 数据库的使用还处于初级阶段。
VMware 会在加利福尼亚的 Santa Clara 举办的 O’Reilly Strata 大会上做演讲,介绍 Spring Hadoop 项目。
查看英文原文: VMware Introduces Spring Hadoop
评论