写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:383154

评论

发布
暂无评论
发现更多内容

通过源码分析RocketMQ主从复制原理

京东科技开发者

Java 源码分析 RocketMQ 端口 企业号 3 月 PK 榜

带你认识3个J.U.C组件扩展

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 3 月 PK 榜

安全可信| 天翼云全栈云原生安全防护平台入选工信部“2022年网络安全技术应用试点示范项目”!

天翼云开发者社区

ChatGPT “眼”中的开源数据库

墨天轮

数据库 ShardingSphere 开源数据库 Tapdata ChatGPT

堡垒机厂家电话多少?在哪里?怎么样?

行云管家

网络安全 堡垒机 自动化运维

2个月内如何在千人团队落地压测平台?

老张

项目管理 性能测试 全链路压测 压测平台

数据库自治平台 KAP 监控告警架构及实例演示

KaiwuDB

数据库· KaiwuDB 数据库自治

软件测试/测试开发 | 被测系统架构与数据流分析

测试人

软件测试 自动化测试 测试开发

错题集

刿刀

高校技术导师云集 OpenHarmony技术峰会“高校技术俱乐部分论坛”举办

极客天地

软件测试/测试开发 | 软件项目管理与跨部门沟通协作

测试人

软件测试 自动化测试 测试开发

SpEL表达式注入漏洞分析、检查与防御

华为云PaaS服务小智

安全 分析

OpenHarmony 3.2 Beta Audio——音频渲染

OpenHarmony开发者

OpenHarmony

软件测试/测试开发 | 被测项目需求你理解到位了么?

测试人

软件测试 自动化测试 测试开发

玩转GaussDB 中的SET操作符

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

昇腾AI新技能,还能预防猪生病?

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

湖北文旅虚拟数字代言人“胡贝儿”首秀,赛博大象助力地方文旅元宇宙落地

科技热闻

WebUI自动化测试框架搭建之需求整理、详细设计和框架设计

Python 自动化测试 unittest 测试框架 selenium

NFTScan 与 BNB Chain 达成战略合作,成为BNBChain Kickstart 官方数据服务提供商

NFT Research

NFT 数据基础设施

中国电信天翼云喜获2022中国电子学会科技进步奖一等奖!三等奖!

天翼云开发者社区

阿里开源自研高性能核心搜索引擎 Havenask

阿里技术

搜索引擎 AI·OS实践

CocoaPods的使用问题

刿刀

CocoaPods

XView 架构升级之路

京东科技开发者

架构 框架 企业号 3 月 PK 榜 xview

无服务器Serverless总结

天翼云开发者社区

助力企业数字化转型!涛思数据与永洪科技完成战略合作签约

TDengine

tdengine 时序数据库 企业数字化

数字先锋| 云端来养牛,致富有“犇”头

天翼云开发者社区

容器化部署和传统部署的四个区别详细讲解-行云管家

行云管家

容器 容器化部署

14 条策略助力企业构建更安全的软件供应链

墨菲安全

SBOM 软件供应链安全

由浅入深,揭秘企业级OLAP数据引擎ByteHouse

字节跳动数据平台

Clickhouse 数据引擎 企业号 2 月 PK 榜

PostgreSQL:启动与停止

天翼云开发者社区

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章