写点什么

为什么我要选择 Spark on K8s?

  • 2019-09-12
  • 本文字数:1798 字

    阅读完需:约 6 分钟

为什么我要选择Spark on K8s?

大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到 20 年时间,已渗透到社会生产和人们生活的方方面面,。然而,伴随着信息量的指数级增长,大数据也开始面临存储资源告急、算力吃紧、数据处理效率无法满足业务增长诉求等一系列问题,导致唱衰之声此起彼伏。而近年来兴起的容器技术,以其轻量化、易迁移、扩容快等优势,结合计算存储分离的分布式架构,可以更好地发挥大数据平台在海量数据集、高并发、实时分析等应用场景下的优势。


互联网、汽车、保险、电力、零售等行业,利用海量信息分析用户特征及行为模式,从而制定更贴近用户的服务方案、商业策略,并进行精准推送。目前大部分数据分析都在 Hadoop 生态中进行,Hadoop 也凭借其完善的生态,备受用户欢迎,成为主流的开源大数据平台,也成为了大数据的代名词。



然而,从 2006 第一个 Hadoop 版本发布算起的话,大数据的发展也经历了至少 13 个年头,当初引以为傲的“计算存储融合”架构以及先进的数据分析理念和实践,也开始遭受挑战:


  1. 计算存储资源耦合,无法灵活调整存算配比,只能按固定比例扩容,导致部分资源浪费;

  2. 数据中心建设成本高,后期运维成本有高,性价比和灵活度均不如公有云方案;

  3. 互联网时代,数据爆炸式增长,现有数据中心资源不足,极易导致作业拥塞,降低计算效率;

  4. 大数据与其它业务资源池无法共享,需分开维护多套,进一步增加运维成本。


此外,AI、机器学习、自然语言处理(NLP)等概念的兴起,也对大数据造成冲击,“大数据已死”的风声开始不绝于耳。



随着 5G+云+AI 时代来临,数据变得更多、更复杂、更精细化,大数据不仅没有死,反而对企业变得前所未有的重要。而亟待我们解决的问题是:如何用一种更高效、更实用的解决方案,处理爆炸式增长的数据。围绕这一课题,各大公司也展开了新一轮的技术探索与升级。


首先,基础网络飞速发展,网络传输已不再是瓶颈,许多公司开始在大数据的存储和计算分离方面做尝试,效果如何呢?IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”


同时,伴随着容器技术的成熟及在各行业的深入应用,部分企业也着手于平台的容器化改造,希望结合容器的优势,为大数据平台赋予新的力量。


二者结合,我们似乎看到了大数据蜕变的曙光。



目前,存算分离的方案相对已经比较成熟,容器化方案还处于探索和小规模应用阶段,以 Spark 为例,方案大体上分为 2 种:


一种是 Spark Standalone,该方案仅对大数据系统做容器化部署改造,得益于容器轻量化、更细粒度的算力管理、任务隔离等特点,可以将主机划分成更多小颗粒的任务单元,使主机资源利用率更高,同时兼顾用户原有的使用习惯。


但此方案需要提前分配固定的容器数量,并保持容器的持续运行,无法对容器进行动态管理,资源的利用率虽然有所提升,但仍存在浪费。


另一种是 Spark On Kubernetes 集群方案,该方案使用 Kubernetes 替代 Yarn 来进行统一的资源编排和调度,技术上更贴近主流容器解决方案,免去了二层调度,可以进一步提升资源管理效率,相比 Standalone 方案,实现了对容器资源的动态管理,优化了资源分配。


然而,Kubernetes 不属于 Hadoop 生态组件,与传统 Spark on YARN 方案相比存在一些劣势,如:缺少任务队列、external shuffle service 等特性,且性能较差。因此在应用到生产系统时,还要做大量的功能增强、调度和性能优化,才能保持与传统大数据平台一致。


针对客户容器化过程中的问题,华为云计划推出鲲鹏大数据容器解决方案,该方案与 BigData Pro 相结合,将提供一套更完善的容器化大数据解决方案。BigData Pro 是业界首个鲲鹏大数据解决方案,该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+云+智能时代的全新挑战,实现企业智能化转型升级。


2019 年全联接大会上,华为云将正式发布鲲鹏大数据容器解决方案,该方案针对大数据业务场景,在功能、调度和性能上有了优化和增强,能为用户提供更原生的大数据服务体验。


华为云鲲鹏大数据容器相比业界主流大数据平台有哪些优势?华为云鲲鹏大数据容器又使用了哪些黑科技?


9 月 18 日华为全联接大会


让我们一起拭目以待!


2019-09-12 18:213572

评论

发布
暂无评论
发现更多内容

官宣!华为云GaussDB两大数据库通过中国信通院多项评测

科技怪咖

快手能做好ToB吗?

ToB行业头条

tob 快手

如何为开源项目撰写 RFC

Databend

大数据 开源 #开源 databend

软件测试 | 测试开发 | 接口测试 Mock 实战(二) | 结合 jq 完成批量化的手工 Mock

测吧(北京)科技有限公司

Mock

【微信小程序开发】自定义tabBar案例(定制消息99+小红心)

计算机魔术师

8月月更

Python如何用类和对象来编程?

和牛

Python 8月月更

字节跳动端智能工程链路 Pitaya 的架构设计

字节跳动终端技术

机器学习 客户端 端智能 Python. Pitaya

华为云发布《云原生2.0架构白皮书》,GaussDB技术再升级

sofiya

中大型现代服务行业的ERP,Telework现代服务中台

sofiya

基于KubeEdge的边缘节点分组管理设计与实现

华为云开发者联盟

云计算 云原生 后端

【Django | 开发】 (国际化项目&支持多语言)

计算机魔术师

8月月更

设计模式的艺术 第十六章责任链设计模式练习(提供一个假条审批模块:如果员工请假天数小于3天,主任审批该请假条;如果天数大于或等于3天,小于10天,经理审批;如果天数大于或等于10天,小于30天,总经理审批;如果超过30天,总经理不能审批,提示相应拒绝信息)

代廉洁

设计模式的艺术

Databend SQL Planner 全新设计

Databend

sql 大数据 开源 #开源 databend

软件测试 | 测试开发 | 一文带你了解K8S容器编排(上)

测吧(北京)科技有限公司

k8s

在线XML转HTMLTable工具

入门小站

工具

MobTech短信验证 Android端快速集成

MobTech袤博科技

android android-studio 短信验证

创新技术领航者!华为云GaussDB获颁2022年云原生数据库领域权威奖项

科技云未来

华为云GaussDB(for Redis)全面对比Codis

科技云未来

在线图片隐写术解密解码传递数据

入门小站

工具

设计模式的艺术 第五章工厂方法设计模式练习(设计一个程序来读取各种不同类型的图片格式,针对每种格式都设计一个图片读取器)

代廉洁

设计模式的艺术

前端小白躺平摆烂可以吗

Liam

前端 前端开发 前端面试 Mock 前端入门

Java即时编译(JIT)原理与调优

柠檬汁Code(binbin0325)

JVM JIT 即时编译

教育部“产学合作协同育人”项目华为云GaussDB项目入选名单公布

sofiya

defi质押挖矿dapp系统开发智能合约部署详解

开发微hkkf5566

数字藏品系统开发:NFT系统开发

开源直播系统源码

数字藏品 数字藏品软件开发 数字藏品源码出售 数字藏品开发

【小程序项目开发-- 京东商城】uni-app之商品列表页面 (下)

计算机魔术师

8月月更

[CSS入门到进阶] 4行CSS实现footer置底!超常见的需求,快来收藏

HullQin

CSS JavaScript html 前端 8月月更

揭秘华为云GaussDB(for Redis)六大秒级能力盘点

科技云未来

软件测试 | 测试开发 | 常见接口协议解析

测吧(北京)科技有限公司

TCP/IP

演讲实录|吴亚昆:云时代智能运维与可观测性探索

观测云

长安链源码分析启动(7)

长安链

为什么我要选择Spark on K8s?_架构_华为云原生团队_InfoQ精选文章