写点什么

把嵌套列表作为 Apache Spark SQL 的首选

  • 2019-08-15
  • 本文字数:1569 字

    阅读完需:约 5 分钟

把嵌套列表作为 Apache Spark SQL 的首选

ArchSummit深圳2019大会上,蔡東邦 (DB Tsai)讲师做了《把嵌套列表作为 Apache Spark SQL 的首选》主题演讲,主要内容如下。


演讲简介


Making Nested Columns as First Citizen in Apache Spark SQL


Apple Siri is the world’s largest virtual assistant service powering every iPhone, iPad, Mac, Apple TV, Apple Watch, and HomePod. We use large amounts of data to provide our users the best possible personalized experience. Our raw event data is cleaned and pre-joined into an unified data for our data consumers to use. To keep the rich hierarchical structure of the data, our data schemas are very deep nested structures. In this talk, we will discuss how Spark handles nested structures in Spark 2.4, and we’ll show the fundamental design issues in reading nested fields which is not being well considered when Spark SQL was designed. This results in Spark SQL reading unnecessary data in many operations. Given that Siri’s data is super nested and humongous, this soon becomes a bottleneck in our pipelines.


Then we will talk about the various approaches we have taken to tackle this problem. By making nested columns as first citizen in Spark SQL, we can achieve dramatic performance gain. In some of our production queries, the speed-up can be 20x in wall clock time and 8x less data being read. All of our work will be open source, and some has already been merged into upstream.


参考译文:


Apple Siri 是世界上最大的虚拟助理服务,为每部 iPhone,iPad,Mac,Apple TV,Apple Watch 和 HomePod 提供服务支持。我们使用大量数据来为用户提供最佳的个性化体验。所有的原始事件数据被清理并预先加入到统一数据中,供我们的数据使用者使用。为了保持数据的丰富层次结构,我们的数据模式采用了非常深的嵌套结构。


在本次演讲中,我将讨论 Spark 如何处理 Spark 2.4 中的嵌套结构,还会展示读取嵌套字段时的基本设计问题,这些问题在设计 Spark SQL 时并未得到充分考虑。这就导致了 Spark SQL 在许多操作中读取不必要的数据。鉴于 Siri 超级嵌套的数据非常庞大,它很快就成了瓶颈所在。


之后,我会介绍为解决这个问题所采取的各种方法。将嵌套列作为 Spark SQL 中的第一个公民,在性能上获得显着的提升。在我们的一些生产查询中,加速 20 倍,读取的数据减少 8 倍。我们所有的工作都将开源,有些已经合并到了核心区域。


讲师介绍


蔡東邦 (DB Tsai)


Apple Staff Software Engineer & Apache Spark PMC


DB Tsai is an Apache Spark PMC / Committer and an open source and staff software engineer at Apple Siri. He implemented several algorithms including linear models with Elastici-Net (L1/L2) regularization using LBFGS/OWL-QN optimizers in Apache Spark. Prior to joining Apple, DB worked on Personalized Recommendation ML Algorithms at Netflix. DB was a Ph.D. candidate in Applied Physics at Stanford University. He holds a Master’s degree in Electrical Engineering from Stanford.


译文参考:


蔡東邦老师是 Apache Spark PMC / Committer,同时也是 Apple Siri 的主任工程师。他将多个算法应用到了 Apache Spark 当中,包括使用了 LBFGS / OWL-QN 优化器 的 Elastici-Net(L1 / L2)正则化的线性模型。在加入 Apple Siri 之前,蔡老师在 Netflix 从事个性化推荐机器学习算法的研究工作。目前是斯坦福大学应用物理专业的博士候选人,也获得了斯坦福大学电气工程硕士学位。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/shenzhen/schedule


2019-08-15 00:009440

评论

发布
暂无评论
发现更多内容

优秀免费的长截图标注工具iShot for mac中文版 支持m/intel

理理

iShot截图

能帮你找到大客户的企业全历史行为数据长什么样?

客户在哪儿AI

人工智能 ToB营销 大客户营销

FlowJo 10 for Mac 流式数据分析软件 破解版安装教程

Rose

FlowJo 10下载 FlowJo破解版 FlowJo安装教程

CleanShot X for mac:屏幕全域截图、窗口截图、屏幕、标注、滚动截图

Rose

mac截图工具 CleanShot X for mac CleanShot X下载 CleanShot X截图

后端开发和你聊聊JVM如何优化

京东零售技术

后端 企业号 8 月 PK 榜 #JVM

【IT运维】医院IT运维难点解析看这里!

行云管家

医院 IT 运维

Topogun 3 for mac安装教程(强大的模型拓扑工具)v27840激活版

Rose

3D渲染和动画制作KeyShot 2024.2 中文版 for mac/win破解版下载 含许可证文件

Rose

渲染 动画制作 KeyShot 2024许可证 KeyShot 2024.2安装教程 KeyShot 2024 破解下载

【附源码+教程】基于华为云物联网设计的人工淡水湖养殖系统

DS小龙哥

8月月更

旧世界OldWorld Mac版下载安装 含dlc 旧世界OldWorld 中文版

理理

有了MES、ERP,质量管理为什么还需要QMS?

万界星空科技

万界星空科技 QMS 质量管理QMS系统 生产质量管理 产品质量管理

(优惠券数据)京东商品详情API深度解析:品牌与分类信息的智能检索与应用

代码忍者

API 安全 API 文档 API 测试

One Switch mac版 菜单栏一键开关控制神器

理理

[亲测兼容m1/m2]战锤 40000 盗贼商人for mac破解版 战锤 40000 盗贼商人游戏下载

理理

第三届Apache Flink 极客挑战赛暨AAIG CUP比赛攻略_大浪813团队

阿里云天池

Autodesk Maya 2025.2中文版最新浮动许可证 maya2025安装教程分享

Rose

Maya 2025中文版 Maya 2025安装教程 玛雅2025破解版 Maya 2025浮动许可 三维动画

高效的AirPods耳机管理工具 AirBuddy for Mac v2.6.3汉化版

理理

扣子专业版:低代码能力+专业级SLA,让“企业级 AI Bot”更快落地

新消费日报

axure rp8安装包 Axure RP 8 中文授权版下载 mac/win

理理

好用的chm阅读器iCHM Reader for Macv2.1.3中文直装版

理理

【论文速读】| 在安全运营中心使用大语言模型来实现威胁情报分析工作流程的自动化

云起无垠

从知识图谱到 GraphRAG:探索属性图的构建和复杂的数据检索实践

可信AI进展

人工智能

5年质保!英特尔宣布:为第13和14代酷睿台式处理器延长2年保修

E科讯

淘宝商品详情数据接口:价格数据实时获取方法

tbapi

淘宝API接口 淘宝商品详情接口 淘宝商品价格接口 淘宝实时价格接口

苹果电脑装机必备解压缩软件:Keka for Mac

理理

金融知识挖掘

阿里云天池

修改手机定位软件--AnyGo中文激活版 AnyGo永久激活破解安装

Rose

Mac软件 AnyGo 虚拟机定位

WebStorm 2024 mac中文永久密钥 WebStorm安装教程 支持M1/M2/M3

Rose

WebStorm中文版 WebStorm 2024下载 WebStorm 2024破解版 WebStorm密钥

Subversion客户端 smartsvn mac破解版 永久使用版 支持m1m2Intel

理理

SmartSVN mac破解版 Subversion(SVN)客户端

学习软件测试有哪些培训机构?

测试人

软件测试

把嵌套列表作为 Apache Spark SQL 的首选_ArchSummit_蔡東邦 (DB Tsai)_InfoQ精选文章