Spring for Apache Hadoop 1.0发布_Java_Bienvenido David



 写点什么

SpringSource 发布了 Spring for Apache Hadoop 1.0 。开发者能够通过它编写基于 Spring Framework 的 Hadoop 应用，还能很容易地与 Spring Batch 和 Spring Integration 集成。Spring for Apache Hadoop 是 Spring Data 大型项目的一个子项目，它基于开源的 Apache 2.0 许可发布。

Hadoop 应用通常是一个命令行工具、脚本和代码的集合。Spring for Apache Hadoop 为 Hadoop 应用开发提供了一个一致性的编程模型和声明式配置模型。开发人员现在能够借助它使用 Spring 编程模型（依赖注入、POJO 和辅助模板）实现 Hadoop 应用，并且能够以标准的 Java 应用而不是命令行工具的方式运行它。Spring for Apache Hadoop 支持对 HDFS 的读写操作，支持运行 MapReduce、流或者级联工作，还能够与 HBase、Hive 和 Pig 交互。

Spring for Apache Hadoop 包含以下关键特性：

支持声明式配置，能够创建、配置和参数化 Hadoop 连接，支持 MapReduce、流、Hive、Pig 和级联工作。有不同的“runner”类执行不同的 Hadoop 交互类型，它们分别是 JobRunner、ToolRunner、 JarRunner、 HiveRunner、 PigRunner、CascadeRunner 和 HdfsScriptRunner。
全面的 HDFS 数据访问支持，可以使用所有基于 JVM 的脚本语言，例如 Groovy、JRuby、Jython 和 Rhino。
支持 Pig 和 Hive 的模板类 PigTemplate 和 HiveTemplate。这些辅助类提供了异常转化、资源管理和轻量级对象映射功能。
支持对 HBase 的声明式配置，同时为 Dao 层支持引入了 HBaseTemplate。
声明和编程支持 Hadoop 工具，包括文件系统 Shell（FsShell）和分布式复制（DistCp）。
安全支持。Spring for Apache Hadoop 清楚运行 Hadoop 环境的安全约束，因此能够透明地从一个本地开发环境迁移到一个完全 Kerberos 安全的 Hadoop 集群。
支持 Spring Batch。通过 Spring Batch，多个步骤能够被调整为有状态的方式并使用 REST API 进行管理。例如，Spring Batch 处理大文件的能力就可以被用于向 HDFS 导入或者从 HDFS 导出文件。
支持 Spring Integration。Spring Integration 允许对那些在被读取并写入 HDFS 及其他存储之前能够被转换或者过滤的事件流进行处理。

下面是配置示例和代码片段，大部分来自于 Spring for Hadoop 博客或者参考手册。

MapReduce

复制代码

  
<!-- use the default configuration -->
<hdp:configuration />
<!-- create the job -->
<hdp:job id="word-count" 
   input-path="/input/" output-path="/ouput/"
   mapper="org.apache.hadoop.examples.WordCount.TokenizerMapper"
   reducer="org.apache.hadoop.examples.WordCount.IntSumReducer" />
<!-- run the job -->
<hdp:job-runner id="word-count-runner" pre-action="cleanup-script" post-action="export-results" job="word-count" run-at-startup="true" />

HDFS

复制代码

  
<!-- copy a file using Rhino -->
<hdp:script id="inlined-js" language="javascript" run-at-startup="true">
   importPackage(java.util)
 
   name = UUID.randomUUID().toString()
   scriptName = "src/main/resources/hadoop.properties"
   // fs - FileSystem instance based on 'hadoopConfiguration' bean
   fs.copyFromLocalFile(scriptName, name)
</hdp:script>

HBase

复制代码

  
<!-- use default HBase configuration -->
<hdp:hbase-configuration />
 
<!-- wire hbase configuration -->
<bean id="hbaseTemplate" class="org.springframework.data.hadoop.hbase.HbaseTemplate" p:configuration-ref="hbaseConfiguration" />
// read each row from HBaseTable (Java)
List rows = template.find("HBaseTable", "HBaseColumn", new RowMapper() {
   @Override
   public String mapRow(Result result, int rowNum) throws Exception {
       return result.toString();
   }
}));

Hive

复制代码

 
<!-- configure data source -->
<bean id="hive-driver" class="org.apache.hadoop.hive.jdbc.HiveDriver" />
<bean id="hive-ds" class="org.springframework.jdbc.datasource.SimpleDriverDataSource" c:driver-ref="hive-driver" c:url="${hive.url}" />
 
<!-- configure standard JdbcTemplate declaration -->
<bean id="hiveTemplate" class="org.springframework.jdbc.core.JdbcTemplate" c:data-source-ref="hive-ds"/>

Pig

复制代码

  
<!-- run an external pig script -->
<hdp:pig-runner id="pigRunner" run-at-startup="true">
   <hdp:script location="pig-scripts/script.pig"/>
</hdp:pig-runner>

如果想要开始，可以下载Spring for Apache Hadoop 或者使用_org.springframework.data:spring-data-hadoop:1.0.0.RELEASE_ Maven 构件。还可以获取Spring for Hadoop 的 WordCount 示例。在 YouTube 上还有介绍Spring Hadoop 的网络会议。

Spring for Apache Hadoop 需要 JDK 6.0 及以上版本、Spring Framework 3.0 及以上版本（推荐使用 3.2）和 Apache Hadoop 0.20.2 （推荐 1.0.4）。现在并不支持 Hadoop YARN、NextGen 或 2.x。支持所有的 Apache Hadoop 1.0.x 分布式组件，这些分布式组件包括 vanilla Apache Hadoop、Cloudera CDH3、CDH4 和 Greenplum HD 等。

想要获取更深入的信息，你可以阅读 Spring for Apache Hadoop 参考手册和 Javadoc 。Spring for Apache Hadoop 的源代码和示例托管在GitHub 上。

查看英文原文： Spring for Apache Hadoop 1.0

发布

暂无评论

创作场景

Spring for Apache Hadoop 1.0 发布

评论

选择让小程序在APP内运行的高性价比方案

【CCE Autopilot专栏】资源成本降低60%，Serverless的省钱秘籍

Meta 最新 SPIRIT-LM：语音文本无缝转换还能懂情绪；字节回应实习生破坏大模型训练：网传损失不实丨 RTE 开发者日报

NFTScan | 10.14~10.20 NFT 市场热点汇总

冲击美团！已成功 OC

测试热招职位技能要求拆解公开课 — 开启你的软件测试进阶之路

Web3 游戏周报（10.13 - 10.19）

几行代码带你用TinyEngine低代码引擎开发侧边栏插件

数据库运维实操优质文章文档分享（含Oracle、MySQL等） | 2024年9月刊

In-Depth QCN6224 vs. QCN6024 Analysis of Qualcomm WiFi Network Card CPUs

2024年游戏买量应该怎么玩？

无需公网IP，贝锐花生壳内网穿透实现APP服务端API快速接入

Web网页端IM产品RainbowChat-Web的v7.2版已发布

喜报！Bonree ONE荣膺GOITI首个“可观测性领域年度明星产品奖”

拼多多商品详情数据接口使用方法

一文彻底弄懂MySQL的MVCC多版本控制器

体育直播开发公司有哪些公司？为何都选择东莞梦幻科技

Java 线程池获取池中所有线程列表的方法

智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

华为云架构师深度解读Volcano云原生混部解决方案

探索阿里巴巴中国站商品详情API返回值的多样性

比特币矿工该如何选择矿池？请收下这份 2024 年六大比特币矿池指南

API自动化测试平台：企业API管理的得力助手

DApp众筹项目互助模式系统开发详细步骤与功能设计

望繁信科技荣获2022年度创新产品与解决方案大奖

Nuxt.js 应用中的 build：before 事件钩子详解

Swap丨DAPP开发：兑换交易所质押项目LP分红系统

从微信小程序原理来看app如何搭建专属的App小程序生态

低代码平台助力医疗业实现业务优化与合规管理：全面提升运营效率

租用海外云手机应注意些什么？

CAE教程：HyperMesh概述与有限元分析简介


	<!-- use the default configuration -->
	<hdp:configuration />
	<!-- create the job -->
	<hdp:job id="word-count"
	input-path="/input/" output-path="/ouput/"
	mapper="org.apache.hadoop.examples.WordCount.TokenizerMapper"
	reducer="org.apache.hadoop.examples.WordCount.IntSumReducer" />
	<!-- run the job -->
	<hdp:job-runner id="word-count-runner" pre-action="cleanup-script" post-action="export-results" job="word-count" run-at-startup="true" />


	<!-- copy a file using Rhino -->
	<hdp:script id="inlined-js" language="javascript" run-at-startup="true">
	importPackage(java.util)

	name = UUID.randomUUID().toString()
	scriptName = "src/main/resources/hadoop.properties"
	// fs - FileSystem instance based on 'hadoopConfiguration' bean
	fs.copyFromLocalFile(scriptName, name)
	</hdp:script>


	<!-- use default HBase configuration -->
	<hdp:hbase-configuration />

	<!-- wire hbase configuration -->
	<bean id="hbaseTemplate" class="org.springframework.data.hadoop.hbase.HbaseTemplate" p:configuration-ref="hbaseConfiguration" />
	// read each row from HBaseTable (Java)
	List rows = template.find("HBaseTable", "HBaseColumn", new RowMapper() {
	@Override
	public String mapRow(Result result, int rowNum) throws Exception {
	return result.toString();
	}
	}));


	<!-- configure data source -->
	<bean id="hive-driver" class="org.apache.hadoop.hive.jdbc.HiveDriver" />
	<bean id="hive-ds" class="org.springframework.jdbc.datasource.SimpleDriverDataSource" c:driver-ref="hive-driver" c:url="${hive.url}" />

	<!-- configure standard JdbcTemplate declaration -->
	<bean id="hiveTemplate" class="org.springframework.jdbc.core.JdbcTemplate" c:data-source-ref="hive-ds"/>


	<!-- run an external pig script -->
	<hdp:pig-runner id="pigRunner" run-at-startup="true">
	<hdp:script location="pig-scripts/script.pig"/>
	</hdp:pig-runner>

创作场景

Spring for Apache Hadoop 1.0 发布

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载