写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:383150

评论

发布
暂无评论
发现更多内容

AI Agent:一场智能革命的开始

TechubNews

AI Agent

共探数据可信流通时代的密态新算力|走进隐语年度嘉年华精彩现场

隐语SecretFlow

【YashanDB知识库】过期统计信息导致SQL执行计划变差

YashanDB

数据库 yashandb

【YashanDB知识库】原生mysql驱动配置连接崖山数据库

YashanDB

数据库 yashandb

【YashanDB知识库】yashandb升级后,yasboot restart出现版本回退、报错control file version incompatible

YashanDB

数据库 yashandb

2024 京东零售技术年度总结

京东零售技术

复盘2024,大模型的商业化主线是什么?

脑极体

AI

【YashanDB知识库】解压安装包时报错"tar:Error is not recoverable"

YashanDB

数据库 yashandb

【YashanDB知识库】如何使用MySQL客户端链接YashanDB

YashanDB

数据库 yashandb

解析与构建:基于语法树的代码规则定义

测试人

软件测试

百度HelixFold 3重磅升级 打造生命科学领域“超强引擎”

新消费日报

百度HelixFold 3重磅升级 打造生命科学领域“超强引擎”

Geek_2d6073

【YashanDB知识库】个别数据库用户无法登录数据库,报错 io fail:IO.EOF

YashanDB

数据库 yashandb

【YashanDB知识库】隐藏参数怎么查看初始值

YashanDB

数据库 yashandb

分析代码变更与新增代码覆盖率的最佳实践

测试人

软件测试

代码质量保证的利器:Git 预提交钩子

俞凡

最佳实践

解锁微店商品数据:深度探索item_get API接口及其应用

代码忍者

微店商品详情API接口

MIAOYUN信创云原生项目亮相“科创天府·智汇蓉城”西部“中试”生态对接活动

MIAOYUN

云计算 云原生 创新 信创 信创产业

代码复杂度定义与分析方法

测试人

软件测试

从设计到伴飞:数字孪生赋能航空航天新时代

DevOps和数字孪生

航天航空

阿里巴巴1688 API接口深度解析:高效获取商品详情与关键词搜索商品实战指南

代码忍者

1688API接口

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章