写点什么

网易湖仓管理系统 Amoro 进入 Apache 孵化器

  • 2024-03-27
    北京
  • 本文字数:1267 字

    阅读完需:约 4 分钟

大小:626.53K时长:03:33
网易湖仓管理系统 Amoro 进入 Apache 孵化器

北京时间 2024 年 3 月 11 日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software Foundation)的孵化器,成为 ASF 的一个孵化项目。

 

根据 Apache 软件基金会的投票结果邮件显示,本次投票共包含 15 个约束性投票和 19 个非约束性投票,所有的投票均为赞成,没有弃权票或反对票。

Amoro,开箱即用的湖仓管理能力

 

长期以来,在 Hadoop、Spark、Flink、Trino 等开源、开放、扩展性强的生态项目的支持下,湖仓已成为企业数字化转型中的重要选型。然而,湖仓的复杂性和技术门槛导致企业落地成本居高不下。

 

Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始, 网易大数据团队在公司内基于 Apache Iceberg 进行湖仓一体架构的探索,孵化了流式湖仓服务 Arctic。

  

2021 年,团队陆续发布 Arctic 0.1/0.2 版本,并在网易云音乐算法团队落地,后在网易传媒、网易有道等业务落地。次年 8 月,网易正式开源了 Arctic,项目受到了广泛关注并开始上线到生产环境中,用户逐渐转变为贡献者。

  

2023 年 8 月,由于对 Arctic 的期望以及项目长期发展考虑,Arctic 正式更名为 Amoro,并发布了新的 LOGO 和官网。今年 3 月,网易将 Amoro 捐赠给 Apache 基金会,提案通过了 Apache 基金会的投票决议。

 

自 2022 年 8 月对外开源以来,Amoro 不断有发现相同痛点的小伙伴加入到社区中,截至目前,Amoro 共有 19 个上线用户和 62 位贡献者。

 

Amoro 旨在提供开箱即用的湖仓管理能力,将湖仓的复杂性留给系统,简化给产品和用户。据介绍,Amoro 的功能主要包括:

 

  • 提供统一的 Catalog 服务,对齐 Hive Metastore、Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓;

  • 提供全托管的湖仓维护功能,包括数据自优化、数据过期、快照清理、元数据同步等,以实现数据在不同引擎之间的高可用性和开箱即用。

  • 支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。

  • 提供开箱即用的管理工具,包括 DSL 指令、Metrics、Dashboard 等。

 

“让湖仓不再成为互联网企业专宠”

 

根据 Amoro 团队介绍,Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来以下价值:

 

  1. 降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极致瘦身,让湖仓不再成为互联网企业的专宠。

  2. 通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变得简单和开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得更为便捷。

  

未来,Amoro 社区将专注于以下方面:

 

  1. 打磨全托管 Function 的框架和能力,持续优化 Built-in Function 功能,突出数据自优化功能与对标方案上的性能和成本优势。

  2. 以社区驱动的方式持续完善 Paimon、Iceberg 的对接能力,按需求对接新的 Format。

  3. 面向管理的各类 DSL 指令实现,帮助产品更好地集成。

  4. 完善 Metrics 以及其他管理功能。

 

相关链接:

Amoro 贡献者列表:

https://github.com/NetEase/amoro/graphs/contributors 

Amoro 2024 roadmap:

https://github.com/NetEase/amoro/issues/2534

2024-03-27 14:376895

评论

发布
暂无评论
发现更多内容

玉溪卷烟厂通过正确选择时序数据库 轻松应对超万亿行数据

TDengine

数据库 tdengine 时序数据库

浅析PM2实用入门指南

青年码农

Node pm2

兆骑科创双创服务平台,创业赛事活动,投融资对接平台

兆骑科创凤阁

并发模型和I/O模型介绍

C++后台开发

后端开发 I/O模型 C/C++后台开发 C/C++开发 并发模型

语音直播系统——做好敏感词汇屏蔽打造绿色社交环境

开源直播系统源码

软件开发 语聊房 直播系统源码 语音直播系统

Mysql 基本操作指南之mysql查询语句

六月的雨在InfoQ

8月月更

基于深度学习的图像检索方法!

Geek_e369a5

图像搜索 图像检索

二极管及其应用

厉昱辰

电子技术 8月月更

史上最全!47个“数字化转型”常见术语合集,看完秒懂~

优秀

数字化转型 数字化业务转型

兆骑科创创业赛事活动路演,高层次人才引进平台

兆骑科创凤阁

快速搞懂Seata分布式事务AT、TCC、SAGA、XA模式选型

知识浅谈

开源 8月月更

节省50%成本!京东云重磅发布新一代混合CDN产品

京东科技开发者

云计算 CDN DDoS 混合云

Spring Controller

武师叔

8月月更

中科驭数等单位牵头发布行业首部DPU评测方法技术白皮书

硬科技星球

华为研究院19级研究员几年心得,终成趣谈网络协议文档,附大牛讲解

冉然学Java

数据库 编程 微服务 网络协议 java\

Kubernetes资源编排系列之三: Kustomize篇

阿里云大数据AI技术

运维‘

《数字经济全景白皮书》银行业智能风控科技应用专题分析 发布

易观分析

金融 银行 数字经济全景白皮书

Apache APISIX 2.15 版本发布,为插件增加更多灵活性

API7.ai 技术团队

开源 后端 API网关 APISIX 网关

IDO预售DAPP系统开发(NFT挖矿)

薇電13242772558

dapp

开篇-开启全新的.NET现代应用开发体验

MASA技术团队

.net 云原生 后端

wx-wow(微信小程序动效库)

Five

微信小程序 动画效果 8月月更

面试SQL语句,学会这些就够了!!!

程序员猪小哼

sql 实用SQl语句

太厉害了!腾讯T4大牛把《数据结构与算法》讲透了,带源码笔记

冉然学Java

编程 算法 排序 java\ 数据结构与算法、

国内IT市场还有发展吗?有哪些创新好用的IT运维工具可以推荐?

行云管家

云计算 多云管理 IT运维 云管理

想做好分布式架构?这个知识点一定要理解透彻

王小凡

Java 程序员 分布式 高并发

这几年让你大呼惊人的AI应用,都离不开这项技术

小红书技术REDtech

人工智能 自然语言处理 nlp 自然语言 自然语言理解

C语言结构体(入门)

孤衫

编程语言 C语言 结构体 8月月更

Spring Session

武师叔

8月月更

Python字体反爬之乐居字体反爬,一文看懂,一文学会

梦想橡皮擦

Python 爬虫 8月月更

AI+BI+可视化,Sugar BI架构深度剖析

百度Geek说

架构 数据

大咖说·图书分享 | Serverless工程实践:从入门到进阶

大咖说

Serverless 工程实践

网易湖仓管理系统 Amoro 进入 Apache 孵化器_大数据_褚杏娟_InfoQ精选文章