写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:383086

评论

发布
暂无评论
发现更多内容

Web3 游戏开发者的数据分析指南

Footprint Analytics

区块链 区块链游戏 #Web3 web3游戏

业务-研发一体化的管理平台是否存在?

Geek_2305a8

基于taro搭建小程序多项目框架

EquatorCoco

小程序 taro 前端框架 小程序开发

魔搭+ 函数计算: 一键部署,缩短大模型选型到生产的距离

Serverless Devs

容器 云原生 中间件 函数计算 函数计算FC

定向减免!函数计算让 ETL 数据加工更简单

Serverless Devs

容器 云原生 中间件 函数计算 函数计算FC

部署SD-WAN需要多长时间?多少钱?

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

2023 年度龙蜥最佳用户案例奖揭晓,中国移动、小红书、中国人寿财险等企业上榜!

OpenAnolis小助手

开源 操作系统 用户案例 龙蜥社区 商业版

2023京东零售技术年度盘点

京东科技开发者

MetaVideo mac 1.1.3激活版 视频元数据编辑

iMac小白

DirEqual mac 5.8 激活版 文件夹比较工具

iMac小白

惊为天人!这个保存推特视频到手机相册的办法真的一绝!

frank

twitter

玩转数据处理利器:学会使用 YAML 文件轻松处理数据

测吧(北京)科技有限公司

测试

理解ETF的风险:透明度高、投资组合清晰可见背后的考量

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Disk Drill mac 5.4.1426中文激活版 数据恢复软件

iMac小白

CleanMyMac X v4.14.6中文版 强大的mac系统清理工具

iMac小白

速看!盘点这一年 OpenTiny 都在做什么?

OpenTiny社区

开源 前端 低代码 组件库

OpenKruise :Kubernetes背后的托底

华为云开发者联盟

开发 华为云 华为云开发者联盟

Capture One 23 Enterprise Mac 16.3.4.5企业版 RAW图像编辑处理

iMac小白

Apifox 1月更新:性能测试、多人协作接口实时同步功能全面解析

Apifox

程序员 性能测试 Apifox API 接口工具

小程序全生命周期管理如何安排

Geek_2305a8

重磅来袭“2024粤港澳电子展”覆盖电子信息完整产业链

AIOTE智博会

电子展 电子信息展 电博会

测试管理进阶 | 如何打造一份出彩的工作汇报!

测吧(北京)科技有限公司

测试

Sketch for mac(矢量绘图软件) 99.1中文激活版

iMac小白

应用集成(iPaaS)和数据集成(ETL)高效协同的最佳实践

RestCloud

ETL 数据集成 应用集成 ipaas

华为云幻兽帕鲁服务器搭建教程(Windows平台)

YG科技

Yuliverse:引领区块链游戏新篇章!

Footprint Analytics

区块链游戏 元宇宙 链游 Web3 游戏

软件测试学习笔记丨抓包工具Charles实战

测试人

软件测试

走出大模型部署新手村!小明这样用魔搭+函数计算

Serverless Devs

容器 中间件 函数计算 函数计算FC

低代码(Low-Code)技术简化开发难度,快速搭建应用

互联网工科生

软件开发 低代码 数字化 JNPF

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章