Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,加入孵化器大半年,发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版,它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境,已构建远超 100 PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。
一线实践案例
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
会议演讲推荐
更多内容推荐
TBB 开源库及并发 Hashmap 的使用
本期直播我们邀请 KaiwuDB 高级研发工程师康俊,为大家分享 TBB 开源库及并发 Hashmap 的使用。康俊老师在 Raft 一致性协议优化、分布式存储与调度、高可用双活容灾、多 Region 地理分区等分布式处理模块研发领域具备丰富经验,现负责 KaiwuDB 基础数据结构
2023-06-19
文本数据标注已上线,支持文本分类、实体识别|ModelWhale 版本更新
ModelWhale 将编程建模、模型训练、数据&算力管理等功能深度整合,通过逐级开放的基础设施,与 Jupyter Notebook 交互式、Canvas 低代码拖拽式、CloudIDE 三种即开即用的云分析环境,为研究者团队解决数据安全应用、底层工程繁复、研究成果流转困难等问题。
2023-02-10
极狐 GitLab Helm Chart 已上线,玩转云原生极狐 GitLab!
极狐GitLab 研发团队提供了极狐GitLab & Runner 的 Helm Chart,方便用户在 Kubernetes 相关环境上来安装和运行极狐GitLab & Runner。Helm Chart 已经上线 Artifact Hub!
2022-09-02
化繁为简|中信建投基于 StarRocks 构建统一查询服务平台
中信建投基于分析型数据库构建统一查询服务平台,满足企业大规模用数需求。
2023-02-08
4000 字深度总结!Pipeline 五大性能实践,招招制敌
五大最佳实践,教你解决 Pipeline 性能问题。
2022-10-24
第 K 个语法符号
我们构建了一个包含 n 行( 索引从 1 开始 )的表。首先在第一行我们写上一个 0。接下来的每一行,将前一行中的0替换为01,1替换为10。
2022-10-20
Kubernetes 云原生实战:分布式 GeaFlow 实现图研发,构建第一个商业智能应用
GeaFlow(品牌名TuGraph-Analytics) 已正式开源,欢迎大家关注!!! 欢迎给我们 Star 哦! GitHub👉https://github.com/TuGraph-family/tugraph-analytics
2023-07-06
开篇词 | 入门 Spark,你需要学会“三步走”
通过“学、用、写”不断迭代的学习方式,我把零散的开发技巧归纳成了结构化的知识体系。
2021-09-06
Spark On YARN:Client 模式与 Cluster 模式
2021-01-07
Spark Structured Streaming 原理及实战:Structured Streaming 概念、特点、数据模型和应用实战
2020-12-24
查询最新汽车新闻资讯
华为云开天集成工作台是一个可扩展的API集成框架,可以帮助客户快速建立SaaS应用之间的连接通道,打破信息孤岛,实现应用的快速构建和上线,降低研发成本。 华为云开天集成工作台本身也集成了众多的连接器,API,流模板。
2023-05-03
Okhttp 如何构建一个 Get 的 URL
因项目的需要,构建一个微信请求的 URL。
2023-02-07
顺丰基于 Flink CDC + Hudi 推进实时业务落地
大数据研发高级工程师唐尚文,在 Flink Forward Asia 2022 数据集成专场的分享。
2023-07-20
火山引擎 DataLeap 下 Notebook 系列文章一:技术选型之路
研发团队将 Notebook 作为一种任务类型,加入了火山引擎 DataLeap 数据研发平台,使用户既能拥有 Notebook 交互式的开发体验,又能享受一站式大数据研发治理套件提供的便利。
2023-04-18
什么是大数据:从 GFS 到 Dataflow,12 年大数据生态演化图
要想学好大数据,我们需要先正本清源,弄清楚大数据在技术上到底涵盖了些什么。所以今天这节课,我就从大数据技术的核心理念和历史脉络这两个角度,来带你理解下什么是大数据技术。
2021-09-15
开篇词 | Spark 性能调优,你该掌握这些“套路”
你知道Spark 3.0有哪些新特性吗?为什么自己学了那么多的调优方法,应用的执行性能还是上不去?
2021-03-15
Spark 未来趋势:DeltaLake 实战
2021-01-28
个推 TechDay 直播回顾 | 分享基于 Flink 的实时数仓搭建秘诀 附课件下载
近日,个推TechDay“治数训练营”系列直播课第二期举办。来自每日互动(个推)的资深数据研发工程师为大家详细解读了实时数仓架构演进,分享了实时数仓的技术选型要点,并结合实战案例详细剖析实时数仓搭建秘诀。
2022-09-05
Docker 下 Prometheus 和 Grafana 三部曲之二:细说 Docker 编排
上一篇文章中快速搭建环境是否给您留下了印象,今天就来揭秘如何实现简单快捷的构建一个监控系统
2022-08-25
企业研发治理转型利器华为云发布流水线服务 CodeArts Pipeline
软件持续交付流水线是一个可视化的自动化任务编排调度平台,串联编译构建、代码检查、自动化测试、部署发布等任务,承载软件从代码提交到发布上线全自动化流程。一次配置后即可重复触发执行,避免频繁低效的手工操作。
2023-03-21
推荐阅读
软件质量: 问题在哪, 如何改善?
2023-11-20
9. Flink 的数据增量聚合及全量聚合
2023-09-08
Apache Druid 核心机制:自动 Compaction 合并是如何实现的?
2022-08-09
亚马逊云科技宣布推出四项 Zero-ETL 集成特性
2023-12-04
【强推】苹果 Mac 电脑后期处理软件,打造极致的
2023-11-04
广发证券项目经理吴悠确认出席 FCon,分享广发证券场外衍生品投资管理项目 BizDevOps 落地探索
37|我该从哪些方向了解云原生领域?
2023-03-03
电子书
大厂实战PPT下载
换一换 李水土 | 双环传动 董事、副总经理、COO
贾立 | 哈啰出行 软件研发中心/基础算法负责人
王新栋 | 《架构修炼之道》作者
评论