在QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。
演讲简介:
eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。
听众受益
自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;
数据的物理布局:如何对表做 bucket 和 partition;
使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;
使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。
讲师介绍:
俞育才
eBay 大数据架构师
俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。
完整演讲 PPT 下载链接:
https://qcon.infoq.cn/2018/shanghai/schedule
评论