在ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。
演讲简介:
Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:
对中小规模用户,成本上浪费严重,管控节点开销占比过高;
和其他云服务接入很生硬,大多数需要用户自己开发;
集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。
Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。
演讲提纲
Serverless VS E-MapReduce
规模和可扩展性
用户代码和系统安全
数据湖存储架构
企业级特性
硬件的使用
和 Carbon 存储系统的集成
细节决定成败
听众受益
社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;
互联网时代的大数据,硬件的使用往往能带来意想不到的价值;
工程问题:开源产品云化最大的“坑”。
讲师介绍:
王鹏飞
华为 CloudBU EI 产品部 数据分析域架构师
目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。
在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。
完整演讲 PPT 下载链接:
https://archsummit.infoq.cn/2018/shenzhen/schedule
评论