写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-12 09:452288

评论

发布
暂无评论
发现更多内容

刷新三项世界纪录!浪潮云ICP ARM架构获SPEC Cloud测试全球第一名

云计算

内网穿透的实现原理(附源码)

风斩断晚霞

Java Go 网络编程 Netty 内网穿透

Seektiger DAO的共识增长计划,锁仓STI长线价值投资

股市老人

Docker下RabbitMQ四部曲之一:极速体验(单机和集群)

程序员欣宸

Java RabbitMQ 5月月更

开源生态|打造活力开源社区,共建开源新生态!

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

LabVIEW虚拟数字示波器

不脱发的程序猿

数据采集 LabVIEW 虚拟示波器 信号发生VI

Linux环境显式使用动态库

Loken

音视频 5月月更

LabVIEW操作鼠标滚轮放大/缩小图像

不脱发的程序猿

图像处理 LabVIEW 鼠标滚轮来放大和缩小图片

什么是小程序运行时框架?

Geek_99967b

native 小程序容器 小程序开发

经典递归 - 青蛙跳台阶问题

芒果酱

递归 C语言 5月月更

企业上云,安全合规如何进阶 ——一文拆解亚马逊云科技云安全理念与实践

亚马逊云科技 (Amazon Web Services)

云安全 亚马逊云

寻找智能精灵:出海与创新时代的开发者之需

脑极体

搜狐全员遭诈骗,暴露哪些问题?

Authing

身份云 信息 统一身份认证 mfa

Java Core「5」自定义注解编程

Samson

学习笔记 5月月更 Java core

LabVIEW实现Modbus通信

不脱发的程序猿

LabVIEW Modbus 串口通信 VISA 工业通信

怎样让智能电视更加智能

Geek_99967b

小程序 小程序容器 智能电视

Kubernetes Gateway API - 服务网络的演进

Flomesh

Kubernetes Gateway ingress

云端的 ABAP Restful 服务开发以及通过 abapGit 传输到其他系统的详细步骤

汪子熙

git SAP abap 5月月更 abapgit

基线监控:基于依赖关系的全链路智能监控报警

字节跳动数据平台

监控 SLA 基线检查

flask框架关于静态文件及其模板生成

恒山其若陋兮

5月月更

多个平台显示IP地址:如何看待互联网实名制

石头IT视角

Flutter的特别之处

Geek_99967b

flutter 小程序开发

LinkedHashMap 源码分析-访问

zarmnosaj

5月月更

DataPipeline完成B+轮1.2亿元人民币融资,定义基于DataOps理念的下一代数据基础设施

DataPipeline数见科技

十二、云原生安全趋势

穿过生命散发芬芳

云原生安全 5月月更

【LeetCode】括号的分数Java题解

Albert

LeetCode 5月月更

JavaScript获取元素的宽高

空城机

JavaScript 5月月更

LabVIEW使用移位寄存器计算平均值

不脱发的程序猿

LabVIEW 移位寄存器计算平均值 移位寄存器

DNS解析过程

工程师日月

5月月更

Netty实战-实现内网穿透(一)

风斩断晚霞

Java Go Netty 内网穿透

Go Web 编程入门:中间件

宇宙之一粟

中间件 Go web 5月月更

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章