写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-12 09:452352

评论

发布
暂无评论
发现更多内容

=基于 Flexus 云服务器 X 实例体验大模型部署体验测评

轶天下事

基于Flexus云服务器X实例的数据库性能测试

轶天下事

焦点控制

flfljh

模态弹窗

flfljh

终于拿到了阿里P8架构师分享的JCF和JUC源码分析与实现笔记java岗

程序员高级码农

Java 编程 程序员 java面试 Java面试题

干掉EasyExcel!FastExcel初体验

王磊

WingPro for Mac(强大的Python开发工具)v10.0.8注册激活版

小玖_苹果Mac软件

Commander One PRO Pack for Mac(文件管理)v3.12.0中文激活版

小玖_苹果Mac软件

鸿蒙 next 基于@xwf/image_preview(V1.0.1)开发自己的功能

flfljh

Infuse for Mac(多媒体播放器)v8.0.7 免激活版

小玖_苹果Mac软件

Flexus X实例搭配华为云EulerOS,快速部署MySQL并执行读写性能测试

轶天下事

Flexus X实例ultralytics模型yolov10深度学习AI部署与应用

轶天下事

Arturia Augmented MALLETS for mac(槌击乐音源)v1.0.0激活版

小玖_苹果Mac软件

Commander One for Mac(双窗口文件管理器)v3.12.0免激活版

小玖_苹果Mac软件

Stepper 组件简易使用教程

flfljh

时代邻里携手华为云TaurusDB,打造智慧社区服务行业创新标杆

YG科技

为什么生成式AI的工作被称为“推理”而不是“预测”?

JustYan

人工智能 AI大模型 生成式AI

阿里P8架构师都要学习研究的java加强版23种设计模式神级PDF文档

程序员高级码农

Java 程序员 设计模式 java面试 Java面试题

《计算机组成及汇编语言原理》阅读笔记:p48-p81

codists

计算机组成及汇编语言原理

Easysearch Java SDK 2.0.x 使用指南(二)

极限实验室

sdk client easysearch

装备管理系统(源码+文档+部署+讲解)

深圳亥时科技

华为鸿蒙系统Stage模型:构建轻量、高效、安全的应用程序

flfljh

Toggle 组件的简易使用

flfljh

OpenAI 推出嵌入式硬件 SDK,支持 ESP32 语音开发;INFP:音频驱动的双人对话头像生成,自动区分说话者和倾听者

声网

年底了,如何与领导谈绩效

老张

绩效考核 工作汇报

鸿蒙系统拖拽事件简易使用

flfljh

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章