免费下载案例集|20+数字化领先企业人才培养实践经验 了解详情
写点什么

顶级项目 Apache Arrow 被业界大量采用,Apache 软件基金会骄傲总结其发展潜力

  • 2019-02-27
  • 本文字数:1415 字

    阅读完需:约 5 分钟

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力

马萨诸塞州维克菲尔德,2019 年 2 月 19 日消息:Apache 软件基金会(Apache Software Foundation,简称 ASF)宣布了大数据列式内存数据平台 Apache Arrow 的发展势头。


Arrow 已经被数十个开源和商业技术方案所采用,在作为 Apache 顶级项目的前三年月下载量超过 1 百万。


自从 2016 年 1 月该项目成立以来,Arrow 已经迅速成长为在内存中表示和处理分析数据的事实标准,把分析处理和交换的速度提高了 100 多倍。


Arrow 副总裁 Jacques Nadeau 说:“在 Arrow 成为顶级项目时,我们预测世界上大多数数据将在未来 10 年中通过 Arrow 进行处理。仅仅过了 3 年,我们就看到 Arrow 在各种分析、机器学习和人工智能工作负载中出现了大量的业界采用,并实现了价值增长。”


Arrow 的亮点包括:


业界采用:超过 20 种重要技术采用 Arrow 来加快内存分析,其中包括 Apache Spark、NVIDIA RAPIDS、pandas 和 Dremio,等等。已知开源和商业的实现方案列表可以在https://arrow.apache.org/powered_by/上找到。


数百万次下载:众多其他技术对 Arrow 的采用和集成带来了超过 1 百万次的月下载量。


新语言支持:作为跨语言开发平台,支持多种编程语言是重中之重。Arrow 已经从支持一种语言发展到如今能支持 11 种不同的语言,其中包括 C++、Java、Python、R、C#、JavaScrip 和 Ruby,等等。


无缝数据格式支持:Arrow 支持不同数据类型,无论是简单类型还是嵌套类型,只要它们存在于内存中,如常规的系统 RAM、内存映射文件或 GPU 内存。此外,它还可以从流行的存储格式(如 Apache Parquet、CSV 文件、Apache ORC、JSON,等等)中摄取数据。


主要代码捐赠:Arrow 的新功能和扩展功能要归功于部分代码和组件的捐赠:


  • C#库

  • 基于 Gandiva LLVM 的表达式编译器

  • Go 库

  • JavaScript 库

  • Plasma 共享内存对象存储

  • Ruby 库(Arrow 和 Apache Parquet)

  • Rust 库(Parquet 和 DataFusion 查询引擎)


社区和捐献者的增长:在过去 12 个月中,近 300 位个人贡献者提交了 3 千多次代码,使 Arrow 代码库增加了 30 万行代码。Arrow 社区每个月有约 10 个新贡献者加入。


2019 年 1 月,该项目发布了最新版本 Arrow 0.12.0,带来了在 2018 年第 4 季度期间开发的 600 多项增强功能。Arrow 社区正致力于采取一系列有影响力的新举措,包括解决高性能分析问题和支持更高效的集群数据分布。


Arrow 项目管理委员会成员以及 pandas 项目创建人 Wes McKinney 表示:“Arrow 在业界的快速采用和开发人员社区的快速发展证实了我们最初的观点,即独立于语言的列式数据开放标准非常重要。另外,我们看到,不仅在编程语言之间,而且在数据库系统和数据科学领域之间都产生了富有成效的合作。我们期望有更多数据系统开发人员能够加入我们的社区。”


Arrow 简介


Arrow 是用于处理内存数据的跨语言开发平台。它为平面和分层数据指定了独立于语言的标准化列式内存格式,可在现代硬件上进行高效的分析操作。它还提供了计算库和零拷贝流式消息传递和进程间通信。目前支持的语言包括 C 语言、C++、C#、Go、JavaScript、MATLAB、Python、R 语言、Ruby 和 Rust。


可用性和监督


Arrow 基于 Apache License v2.0 许可发行,由项目活跃贡献者自选团队进行监督。项目委员会(PMC)指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Arrow 的方法,请参考以下链接:http://arrow.apache.org/


阅读英文原因:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces46


2019-02-27 17:0113256
用户头像

发布了 199 篇内容, 共 84.8 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

物联网数据应用开发最佳实践——数据价值类

阿里云AIoT

数据挖掘 物联网 存储 数据管理 调度

Tapdata Connector 实用指南:云原生数仓场景之数据实时同步到 Databend

tapdata

数据库 大数据

专场直播预约 | KaiwuDB 离散制造业场景解决方案

KaiwuDB

数据库 KaiwuDB 离线制造业 行业解决发展

保姆级教程!基于声网 Web SDK实现音视频通话及屏幕共享

声网

温湿度计设备通过阿里云IoT物联网套件上报数据到钉钉群机器人实践——数据价值类

阿里云AIoT

JavaScript Serverless 物联网 机器人 机器学习/深度学习

GuavaCache与物模型大对象引起的内存暴涨分析——设备管理运维类

阿里云AIoT

缓存 算法 监控 物联网 数据格式

火山引擎DataLeap:数据秒级生产,揭秘电商实时数仓最佳实践!

字节跳动数据平台

数据治理 电商 数据研发 企业号 3 月 PK 榜

浪潮inBuilder低代码平台社区版来了!

inBuilder低代码平台

开源 低代码 企业级低代码平台

基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地

Apache Flink

大数据 flink 实时计算

基于声网 Flutter SDK 实现互动直播

声网

flutter

浅谈DWS函数出参方式

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

Matlab常用图像处理命令108例(八)

timerring

图像处理

从“可用”到“好用” 京东云构建融合开放适配国产化应用的全栈产品矩阵

京东科技开发者

国产化 京东云 国产化替代 京东云峰会

阿里120W年薪架构师力荐750页微服务架构深度解析笔记

程序知音

Java 微服务 编程语言 后端技术

阿里云AIoT物联网平台如何实现设备全球就近接入——设备接入类

阿里云AIoT

运维 监控 物联网 中间件 数据采集

解决运行VMWare虚拟机报错“打不开 /dev/vmmon:断裂管道”

互联网搬砖工作者

全能代码编辑器:CodeRunner 最新激活版

真大的脸盆

Mac 代码编辑器 Mac 软件 代码编辑 编辑代码

实战|网站监控如何做好监测点管理与内网数据采集

云智慧AIOps社区

安全 监控 监控宝 云智慧 网站监控

大资管行业数字化转型解决方案 | 行业方案

袋鼠云数栈

大数据 数字化转型 解决方案

技术详解 阿里云AIoT物模型支撑设备规模已超亿级——设备管理运维类

阿里云AIoT

运维 安全 监控 物联网 芯片

有效载荷标识与内容类型--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 有效载荷标识

【3.10-3.17】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

8年Java架构师面试官教你正确的面试姿势,10W字面试题搞定春招!

小小怪下士

Java 程序员 后端 java面试

什么是安全文件传输

镭速

未来智安入选FreeBuf《CCSIP 2022中国网络安全行业全景册(第五版)》

未来智安XDR SEC

【分布式技术专题】「分布式技术架构」一文带你厘清分布式事务协议及分布式一致性协议的算法原理和核心流程机制(Paxos篇)

洛神灬殇

分布式 PAXOS paxos协议 算法分析

NFTScan 与 UniPass 达成合作伙伴,双方在多链 NFT 数据方面展开合作!

NFT Research

NFT

什么是智慧公厕?智慧公厕存在的意义!

光明源智慧厕所

智慧城市

PS 2023版本 24.2有哪些新功能?增加了哪些相机配置?

Rose

ps ps 2023 Photoshop 2023下载

Macbook技巧,Type-c接口失灵怎么办

互联网搬砖工作者

共享订阅--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 共享订阅

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力_大数据_Apache软件基金会_InfoQ精选文章