写点什么

顶级项目 Apache Arrow 被业界大量采用,Apache 软件基金会骄傲总结其发展潜力

  • 2019-02-27
  • 本文字数:1415 字

    阅读完需:约 5 分钟

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力

马萨诸塞州维克菲尔德,2019 年 2 月 19 日消息:Apache 软件基金会(Apache Software Foundation,简称 ASF)宣布了大数据列式内存数据平台 Apache Arrow 的发展势头。


Arrow 已经被数十个开源和商业技术方案所采用,在作为 Apache 顶级项目的前三年月下载量超过 1 百万。


自从 2016 年 1 月该项目成立以来,Arrow 已经迅速成长为在内存中表示和处理分析数据的事实标准,把分析处理和交换的速度提高了 100 多倍。


Arrow 副总裁 Jacques Nadeau 说:“在 Arrow 成为顶级项目时,我们预测世界上大多数数据将在未来 10 年中通过 Arrow 进行处理。仅仅过了 3 年,我们就看到 Arrow 在各种分析、机器学习和人工智能工作负载中出现了大量的业界采用,并实现了价值增长。”


Arrow 的亮点包括:


业界采用:超过 20 种重要技术采用 Arrow 来加快内存分析,其中包括 Apache Spark、NVIDIA RAPIDS、pandas 和 Dremio,等等。已知开源和商业的实现方案列表可以在https://arrow.apache.org/powered_by/上找到。


数百万次下载:众多其他技术对 Arrow 的采用和集成带来了超过 1 百万次的月下载量。


新语言支持:作为跨语言开发平台,支持多种编程语言是重中之重。Arrow 已经从支持一种语言发展到如今能支持 11 种不同的语言,其中包括 C++、Java、Python、R、C#、JavaScrip 和 Ruby,等等。


无缝数据格式支持:Arrow 支持不同数据类型,无论是简单类型还是嵌套类型,只要它们存在于内存中,如常规的系统 RAM、内存映射文件或 GPU 内存。此外,它还可以从流行的存储格式(如 Apache Parquet、CSV 文件、Apache ORC、JSON,等等)中摄取数据。


主要代码捐赠:Arrow 的新功能和扩展功能要归功于部分代码和组件的捐赠:


  • C#库

  • 基于 Gandiva LLVM 的表达式编译器

  • Go 库

  • JavaScript 库

  • Plasma 共享内存对象存储

  • Ruby 库(Arrow 和 Apache Parquet)

  • Rust 库(Parquet 和 DataFusion 查询引擎)


社区和捐献者的增长:在过去 12 个月中,近 300 位个人贡献者提交了 3 千多次代码,使 Arrow 代码库增加了 30 万行代码。Arrow 社区每个月有约 10 个新贡献者加入。


2019 年 1 月,该项目发布了最新版本 Arrow 0.12.0,带来了在 2018 年第 4 季度期间开发的 600 多项增强功能。Arrow 社区正致力于采取一系列有影响力的新举措,包括解决高性能分析问题和支持更高效的集群数据分布。


Arrow 项目管理委员会成员以及 pandas 项目创建人 Wes McKinney 表示:“Arrow 在业界的快速采用和开发人员社区的快速发展证实了我们最初的观点,即独立于语言的列式数据开放标准非常重要。另外,我们看到,不仅在编程语言之间,而且在数据库系统和数据科学领域之间都产生了富有成效的合作。我们期望有更多数据系统开发人员能够加入我们的社区。”


Arrow 简介


Arrow 是用于处理内存数据的跨语言开发平台。它为平面和分层数据指定了独立于语言的标准化列式内存格式,可在现代硬件上进行高效的分析操作。它还提供了计算库和零拷贝流式消息传递和进程间通信。目前支持的语言包括 C 语言、C++、C#、Go、JavaScript、MATLAB、Python、R 语言、Ruby 和 Rust。


可用性和监督


Arrow 基于 Apache License v2.0 许可发行,由项目活跃贡献者自选团队进行监督。项目委员会(PMC)指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Arrow 的方法,请参考以下链接:http://arrow.apache.org/


阅读英文原因:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces46


2019-02-27 17:0113365
用户头像

发布了 199 篇内容, 共 86.4 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

听保洁老大爷讲Java的垃圾回收

侯树成

JVM

当我们说文本编辑器时,到底在说什么

付济

写作平台 InfoQ markdown

C语言程序的基本结构

C语言技术网-码农有道

C/C++

我的编程之路-2(首秀)

顿晓

方法 沟通 新项目

快来体验 JetBrains Space EAP 版本

刘培培

DevOps JetBrains Space

面对压力的战略和战术

山楂大卷

管理 精神力 逻辑思维 压力 工作思路

Flutter Andorid真机或打包APK杂症记录

北风烈

flutter 打包APK

自助设备系列——上下游

孙苏勇

产品 行业资讯 智能设备

有没有什么上古的程序代码至今依然没被更替?

极客时间

编程 程序员 开发

Kafka系列第5篇:一文读懂消费者背后的那点"猫腻"

z小赵

大数据 kafak 实时计算

高仿瑞幸小程序 03 创建轮播图

曾伟@喵先森

小程序 微信小程序 大前端 移动

5G来临,我们该如何打造自己的家庭数据中心基础篇

ABC实验室

5G 数字资产 家庭数据中心

docker安装mysql5.7并挂载目录到本地

桥哥技术之路

Docker

NumPy 运算规则总结

张利东

Python

VSCode最强助攻

页面仔小杨

编程 vscode

ELK 日志收集简易教程

meng

elasticsearch Logstash Kibana ELK Filebeat

我在极客时间学习的三个月

石乐

最新Idea 2020.1 二种方法激活教程

公众号:V5codings

intellij-idea

我的工作原则与思考

梁帅

互联网 工作效率 原则

从全国首起暗网案件告破说起——暗网,超乎你想象

石君

网络安全 暗网 洋葱网络

C语言数据类型

C语言技术网-码农有道

分析Kubernetes技术体系的层级,慎用比较前沿的技术

韩超

使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (二)为什么要写单元测试

编程道与术

编程 编程语言 TDD 代码审查 单元测试

freecplus框架,Linux平台下C/C++程序员提高开发效率的利器

C语言技术网-码农有道

嵌套文件夹复制实现

Howe

Java 文件复制

2020年程序猿必读10本好书推荐

ABC实验室

学习 2020 程序员 好书推荐

告别手写,一键生成 Helm Chart README

郭旭东

Kubernetes Helm

Grafana+Prometheus(InfluxDB)+Jmeter使用Nginx代理搭建可视化性能测试监控平台

软测小生

Grafana Prometheus Influxdb Jmeter 性能测试

给程序员的错误找个台阶

曲水流觞TechRill

打造个人商业模式第一步

一尘观世界

副业赚钱 提升认知 思维方式 商业模式 认识自己

游戏开发通用技术和工具

波波

编程 游戏开发 H5游戏

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力_大数据_Apache软件基金会_InfoQ精选文章