写点什么

Spring for Apache Hadoop 1.0 发布

  • 2013-03-18
  • 本文字数:2172 字

    阅读完需:约 7 分钟

SpringSource 发布了 Spring for Apache Hadoop 1.0 。开发者能够通过它编写基于 Spring Framework 的 Hadoop 应用,还能很容易地与 Spring Batch 和 Spring Integration 集成。Spring for Apache Hadoop 是 Spring Data 大型项目的一个子项目,它基于开源的 Apache 2.0 许可发布。

Hadoop 应用通常是一个命令行工具、脚本和代码的集合。Spring for Apache Hadoop 为 Hadoop 应用开发提供了一个一致性的编程模型和声明式配置模型。开发人员现在能够借助它使用 Spring 编程模型(依赖注入、POJO 和辅助模板)实现 Hadoop 应用,并且能够以标准的 Java 应用而不是命令行工具的方式运行它。Spring for Apache Hadoop 支持对 HDFS 的读写操作,支持运行 MapReduce、流或者级联工作,还能够与 HBase、Hive 和 Pig 交互。

Spring for Apache Hadoop 包含以下关键特性:

  • 支持声明式配置,能够创建、配置和参数化 Hadoop 连接,支持 MapReduce、流、Hive、Pig 和级联工作。有不同的“runner”类执行不同的 Hadoop 交互类型,它们分别是 JobRunner、ToolRunner、 JarRunner、 HiveRunner、 PigRunner、CascadeRunner 和 HdfsScriptRunner。
  • 全面的 HDFS 数据访问支持,可以使用所有基于 JVM 的脚本语言,例如 Groovy、JRuby、Jython 和 Rhino。
  • 支持 Pig 和 Hive 的模板类 PigTemplate 和 HiveTemplate。这些辅助类提供了异常转化、资源管理和轻量级对象映射功能。
  • 支持对 HBase 的声明式配置,同时为 Dao 层支持引入了 HBaseTemplate。
  • 声明和编程支持 Hadoop 工具,包括文件系统 Shell(FsShell)和分布式复制(DistCp)。
  • 安全支持。Spring for Apache Hadoop 清楚运行 Hadoop 环境的安全约束,因此能够透明地从一个本地开发环境迁移到一个完全 Kerberos 安全的 Hadoop 集群。
  • 支持 Spring Batch。通过 Spring Batch,多个步骤能够被调整为有状态的方式并使用 REST API 进行管理。例如,Spring Batch 处理大文件的能力就可以被用于向 HDFS 导入或者从 HDFS 导出文件。
  • 支持 Spring Integration。Spring Integration 允许对那些在被读取并写入 HDFS 及其他存储之前能够被转换或者过滤的事件流进行处理。

下面是配置示例和代码片段,大部分来自于 Spring for Hadoop 博客或者参考手册。

MapReduce

复制代码
<!-- use the default configuration -->
<hdp:configuration />
<!-- create the job -->
<hdp:job id="word-count"
input-path="/input/" output-path="/ouput/"
mapper="org.apache.hadoop.examples.WordCount.TokenizerMapper"
reducer="org.apache.hadoop.examples.WordCount.IntSumReducer" />
<!-- run the job -->
<hdp:job-runner id="word-count-runner" pre-action="cleanup-script" post-action="export-results" job="word-count" run-at-startup="true" />

HDFS

复制代码
<!-- copy a file using Rhino -->
<hdp:script id="inlined-js" language="javascript" run-at-startup="true">
importPackage(java.util)
name = UUID.randomUUID().toString()
scriptName = "src/main/resources/hadoop.properties"
// fs - FileSystem instance based on 'hadoopConfiguration' bean
fs.copyFromLocalFile(scriptName, name)
</hdp:script>

HBase

复制代码
<!-- use default HBase configuration -->
<hdp:hbase-configuration />
<!-- wire hbase configuration -->
<bean id="hbaseTemplate" class="org.springframework.data.hadoop.hbase.HbaseTemplate" p:configuration-ref="hbaseConfiguration" />
// read each row from HBaseTable (Java)
List rows = template.find("HBaseTable", "HBaseColumn", new RowMapper() {
@Override
public String mapRow(Result result, int rowNum) throws Exception {
return result.toString();
}
}));

Hive

复制代码
<!-- configure data source -->
<bean id="hive-driver" class="org.apache.hadoop.hive.jdbc.HiveDriver" />
<bean id="hive-ds" class="org.springframework.jdbc.datasource.SimpleDriverDataSource" c:driver-ref="hive-driver" c:url="${hive.url}" />
<!-- configure standard JdbcTemplate declaration -->
<bean id="hiveTemplate" class="org.springframework.jdbc.core.JdbcTemplate" c:data-source-ref="hive-ds"/>

Pig

复制代码
<!-- run an external pig script -->
<hdp:pig-runner id="pigRunner" run-at-startup="true">
<hdp:script location="pig-scripts/script.pig"/>
</hdp:pig-runner>

如果想要开始,可以下载Spring for Apache Hadoop 或者使用_org.springframework.data:spring-data-hadoop:1.0.0.RELEASE_ Maven 构件。还可以获取Spring for Hadoop 的 WordCount 示例。在 YouTube 上还有介绍Spring Hadoop 的网络会议。

Spring for Apache Hadoop 需要 JDK 6.0 及以上版本、Spring Framework 3.0 及以上版本(推荐使用 3.2)和 Apache Hadoop 0.20.2 (推荐 1.0.4)。现在并不支持 Hadoop YARN、NextGen 或 2.x。支持所有的 Apache Hadoop 1.0.x 分布式组件,这些分布式组件包括 vanilla Apache Hadoop、Cloudera CDH3、CDH4 和 Greenplum HD 等。

想要获取更深入的信息,你可以阅读 Spring for Apache Hadoop 参考手册 和 Javadoc 。Spring for Apache Hadoop 的源代码示例托管在GitHub 上。

查看英文原文 Spring for Apache Hadoop 1.0

2013-03-18 07:445586
用户头像

发布了 321 篇内容, 共 118.4 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

选择让小程序在APP内运行的高性价比方案

Geek_2305a8

【CCE Autopilot专栏】资源成本降低60%,Serverless的省钱秘籍

华为云原生团队

云计算 容器 云原生

Meta 最新 SPIRIT-LM:语音文本无缝转换还能懂情绪;字节回应实习生破坏大模型训练:网传损失不实丨 RTE 开发者日报

声网

NFTScan | 10.14~10.20 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

冲击美团!已成功 OC

王中阳Go

Go 面试 后端

测试热招职位技能要求拆解公开课 — 开启你的软件测试进阶之路

测试人

软件测试

Web3 游戏周报(10.13 - 10.19)

Footprint Analytics

链游

几行代码带你用TinyEngine低代码引擎开发侧边栏插件

华为云开发者联盟

开源 前端开发 低代码 TinyEngine

数据库运维实操优质文章文档分享(含Oracle、MySQL等) | 2024年9月刊

墨天轮

MySQL 数据库 oracle postgresql 国产数据库

In-Depth QCN6224 vs. QCN6024 Analysis of Qualcomm WiFi Network Card CPUs

wifi6-yiyi

wifi

2024年游戏买量应该怎么玩?

FinFish

小程序容器 游戏买量 小游戏技术 快平台游戏买量

无需公网IP,贝锐花生壳内网穿透实现APP服务端API快速接入

贝锐

内网穿透 API 性能测试

Web网页端IM产品RainbowChat-Web的v7.2版已发布

JackJiang

即时通讯;IM;网络编程

喜报!Bonree ONE荣膺GOITI首个“可观测性领域年度明星产品奖”

博睿数据

拼多多商品详情数据接口使用方法

tbapi

拼多多商品详情接口 拼多多API

一文彻底弄懂MySQL的MVCC多版本控制器

不在线第一只蜗牛

MySQL

体育直播开发公司有哪些公司?为何都选择东莞梦幻科技

软件开发-梦幻运营部

Java 线程池获取池中所有线程列表的方法

快乐非自愿限量之名

Java 线程池

智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

智源研究院

华为云架构师深度解读Volcano云原生混部解决方案

华为云开发者联盟

云原生 Volcano 资源调度

探索阿里巴巴中国站商品详情API返回值的多样性

技术冰糖葫芦

API Explorer API 文档 API 测试 API 性能测试

比特币矿工该如何选择矿池?请收下这份 2024 年六大比特币矿池指南

TechubNews

API自动化测试平台:企业API管理的得力助手

RestCloud

API接口 ipaas api自动化 api自动化测试平台

DApp众筹项目互助模式系统开发详细步骤与功能设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 钱包开发 代币开发

望繁信科技荣获2022年度创新产品与解决方案大奖

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 数字北极星

Nuxt.js 应用中的 build:before 事件钩子详解

EquatorCoco

JavaScript

Swap丨DAPP开发:兑换交易所质押项目LP分红系统

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 代币开发

从微信小程序原理来看app如何搭建专属的App小程序生态

Geek_2305a8

低代码平台助力医疗业实现业务优化与合规管理:全面提升运营效率

天津汇柏科技有限公司

低代码平台

租用海外云手机应注意些什么?

Ogcloud

云手机 云手机群控 云手机推荐 云手机养号 跨境电商运营

CAE教程:HyperMesh概述与有限元分析简介

智造软件

仿真 hyperworks 有限元

Spring for Apache Hadoop 1.0发布_Java_Bienvenido David_InfoQ精选文章