DataFu在Apache进入孵化状态

LinkedIn 的 DataFu 项目是一个用于 Hadoop 的类库集合，于 1 月第 1 周在 Apache 软件基金会（ASF）正式进入孵化状态。

该项目创建于2012 年1 月，早期的定位是作为Pig 项目的用户定义函数集（UDF ）。相对于更加通用的UDF 集如 Piggybank ，Datafu 更侧重于数据挖掘和统计类的函数，例如分位数计算和取样方法。2013 年 10 月，一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库，为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态，并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态，是其前进过程中的一大步。任何项目都要经过严格的审查，完成投票程序才能进入孵化器。2012 年初创建的DataFu，2014 年初才成功进入孵化器。通常，一个Apache 项目完成孵化需要一定的时间，一旦项目的相关服务（wiki、邮件列表、教程等等）建设完成，DataFu 将结束孵化，成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器，DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive 和 Crunch 提供同一 UDF，以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ，这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区，使其以更简单的流程添加新功能。

DataFu 社区还比较小，但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF，就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的，让 DataFu 成为“大数据的 WD-40”。

查看英文原文： DataFu Enters Incubation Status at Apache

感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

创作场景

DataFu 在 Apache 进入孵化状态