写点什么

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

  • 2025-04-07
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

大小:555.44K时长:03:09
小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米数据负责人李培殿已确认出席并发表题为《小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践》的主题分享。本次演讲主要小米数据湖架构 Iceberg 及 Paimon 演进的历程,并介绍小米使用 Apache Gravitino 统一元数据,以及使用 Fileset 进行非表格数据管理和使用上的经验。同时将分享在实际业务中如何有效的使用 Iceberg、Paimon 和 Fileset 来实现的数据在 Data 和 AI 场景的快速流转。


李培殿是小米数据负责人,在小米参与流式计算 Flink,数据湖 Iceberg,Paimon,元数据湖 Gravitino 等开发工作,同时负责小米大模型数据预处理相关工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米数据湖架构

  • 介绍小米当前数据湖架构

  • 介绍当前小米数据湖的使用情况

2. 从 Iceberg 到 Paimon

  • 介绍 Iceberg 使用的问题,为什么引入 Paimon

3. AI 场景下非表格数据的管理和使用

  • 介绍使用 Fileset 来管理非表格数据的应用实践

4. 统一元数据

  • 为什么要做统一元数据

  • 介绍使用 Gravitino 来统一元数据的落地实践

5. 实际业务案例

  • 以大模型数据预处理业务为例,介绍如何使用数据湖高效的完成 Data 到 AI 的数据流转

6. 未来规划

  • 统一的云原生湖仓架构

  • 统一元数据


您认为,这样的技术在实践过程中有哪些痛点?

  • 如何高效的实现 Data 到 AI 场景的数据流转

  • 表和文件如何选择,AI 场景下是否可以使用数据湖


演讲亮点

  • Iceberg、Paimon 在小米最新的落地实践

  • 介绍非表格和元数据在小米的实践及业务价值


听众收益

  • 了解统一元数据在小米的实践案例

  • AI 场景下实际的业务价值


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-07 10:001

评论

发布
暂无评论

跨平台应用开发进阶(五十六):应用渲染异常问题分析及解决

No Silver Bullet

跨平台应用开发 三周年连更 问题分析及解决 渲染异常

你如何看待,“国内ChatGPT还没成熟,但ChatGPT的付费模式已经成熟了?”

小傅哥

人工智能 小傅哥 ChatGPT 人工智能ChatGPT 吗? ChatGPT4

《API加速优化方案:多级缓存设计》

后台技术汇

三周年连更

【Linux】之Centos7安装KVM虚拟化及相关命令

A-刘晨阳

Linux 虚拟化 kvm 三周年连更

如何优雅的处理异常

京东科技开发者

异常处理 java 抛出异常 企业号 4 月 PK 榜 throwale

Nautilus Chain :基于模块化架构的Layer3正在走向成熟

西柚子

DockerSwarm实践及原理

乌龟哥哥

三周年连更

Retrofit 在 JSON 反序列化的时候提示 UnrecognizedPropertyException 异常

HoneyMoose

高效易用的C++单元测试框架:轻松构建高质量代码

万木春

c++ GitHub 单元测试

数字北京城,航行在联通2000M的“大运河”

脑极体

联通

C# 之 字符串前加@(逐字字符串标识符)

陈言必行

C# 三周年连更

大数据之Hadoop图解概述

袁袁袁袁满

三周年连更

一些常见的字符串匹配算法

京东科技开发者

字符串 字符串匹配算法 企业号 4 月 PK 榜 文本处理

用友BIP助力中国领先企业数智化国产替代

用友BIP

国产替代

如何建设一个用于编译 iOS App 的 macOS 云服务器集群?

京东科技开发者

ios 编译 CI/CD 企业号 4 月 PK 榜 云服务集群

2023 年最全面的 DevOps 工具列表,你用过几个?

Java架构历程

DevOps 三周年连更

Prometheus实战-从0构建高可用监控平台(一)

小毛驴的烂笔头

Prometheus

一种新的流:为 Java 加入生成器(Generator)特性

阿里巴巴云原生

Java 阿里云 云原生

Python项目实战│ Python实现线程池工作模式

TiAmo

Python 线程池 三周年连更 工作模式

Android补间动画

芯动大师

三周年连更 帧动画 补间动画

最常用的从A到Z的Linux命令,真的很好记,三分钟刷完!

wljslmz

Linux 三周年连更

易观千帆 | 2023年3月证券APP月活跃用户规模盘点

易观分析

证券 经济

Matlab实现遗传算法

Shine

三周年连更

Mac哪款系统性能软件好用呢?Performance Index 64 Pro mac版推荐~

真大的脸盆

Mac Mac 软件 系统性能监测

突破传统监测模式:业务状态监控HM的新思路

京东科技开发者

系统架构 监控系统 数据监控 业务监控 企业号 4 月 PK 榜

执行个 DEL 竟然也会阻塞 Redis?深挖一下果然不简单

架构精进之路

redis 缓存 后端 bigkey 三周年连更

关于 SaaS 软件销售领域中的 Renewal 和 linearity

汪子熙

SaaS Cloud Studio 三周年连更

Java如何获取@ApiModelProperty(value = “序列号“, name = “uuid“)注解中的value值name值?

bug菌

三周年连更 获取注解值

代码优雅之道——如何干掉过多的if else

小小怪下士

Java 程序员 后端 代码

测试需求平台9-Table组件应用产品列表优化

MegaQi

测试平台开发 三周年连更

复旦MOSS大模型开源了!Github和Hugging Face同时上线

Openlab_cosmoplat

人工智能 开源项目 ChatGPT

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章