AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-12 09:452469

评论

发布
暂无评论
发现更多内容

架構師訓練營 week6 作業

ilake

第六周作业

Meow

第二周学习总结

晴空万里

极客大学架构师训练营

第二周作业

Hjh

架构师训练营第六周作业

xs-geek

极客大学架构师训练营

架构师训练营 1 期 -- 第六周笔记

曾彪彪

极客大学架构师训练营

应用这5步项目任务从分解到执行的方法和工具

boshi

项目管理 思维导图 项目排期

架构师训练营第二周总结

Sandman

初始化文章

Yuchen

自我独白

Architecture Phase1 Week6:Summarize

phylony-lu

极客大学架构师训练营

架构师训练营第 6 周作业

netspecial

极客大学架构师训练营

架构师训练营第 1 期第六周总结

Leo乐

极客大学架构师训练营

理解用户故事的本质

Bruce Talk

敏捷 用户故事 Product Owner

【第六周】技术选型(二)

云龙

架构师训练营第六周课后作业

Gosling

极客大学架构师训练营

2周 作业

水浴清风

极客 - 架构设计指导原则

jorden wang

架构设计原则

架构师课程第二周作业

文江

Netty源码解析 -- 内存池与PoolArena

binecy

Netty 内存管理 源码解析

实用超参数优化

计算机与AI

学习

架构设计学习笔记2

Arthur

极客大学架构师训练营

【架构师训练营第 2 期】第 2 周作业

知致

架构训练营第二周作业

一期一会

第二周作业

jingx

第二周-学习总结

ray-arch

极客大学架构师训练营

架构师训练营 1 期第 6 周:技术选型(二) - 总结

piercebn

极客大学架构师训练营

第六周作业1

Yangjing

极客大学架构师训练营

架构师训练营第六周学习总结

Gosling

极客大学架构师训练营

极客时间-设计原则

CAP原理

知行合一

架构师训练营第六周总结

吴传禹

极客大学架构师训练营

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章