大数据容器化,头部玩家尝到了甜头?

2020 年 6 月 24 日

大数据容器化,头部玩家尝到了甜头?

大数据的需求热度,从来都是这个时代的浪尖。然而由于大数据系统的复杂性,一度导致业界大数据已死的各种声音不断。尤其是当 MapR 被 HPE 收购,Cloudera 公司股票持续跌成狗,使得这种声音进一步放大。


其实,大数据的需求一直在,只是传统的大数据实现系统需要考虑重新构建。而容器依靠其自身的标准化,一次构建,随处运行的能力,使得非常适合大数据系统的构建和管理。容器技术当前正是那只火遍全球的当红辣子鸡。


数据容器化,大势所趋



目前已经有大量的大数据系统原生支 on Kubernetes。例如 Spark 官方版本,从 2.3 开始,就可以无需任何修改直接跑在 K8s 上。并且,将“更好的在 k8s 上运行”作为后续版本的重要特性方向。可见 k8s 对大数据系统的影响多么重要。


队友已在加速,你感受到了么?


由于容器技术对大数据的这种良好助推作用,目前已经有不少技术嗅觉敏锐的头部玩家,开始尝鲜并从中捞取第一桶金。


例如:中国联通的容器化大数据平台实践;京东在使用 Kubernetes 管理大数据中心;网易基于 Kubernetes 和 Docker 构建构建猛犸大数据平台;茄子科技直接将大数据任务大量在生产环境跑在 K8S 之上;华为云 DLI 服务容器化,阿里云 Flink on K8s 等。这些可见的信息都表明这个大方向已经开始加速了。如果你还在艰难的维护着你那庞大的大数据系统,那么你需要停下里看看队友们在干什么。


BigData on K8s 最直接的优势不是性能提升,而是成本的下降。


(1)高利用率的资源调度平台。原来分散在多个集群中的业务,可以合并到统一的集群中,加上长任务短任务混部,及不同业务高峰时间的削峰填谷,来最大化提升集群资源利用率。


(2)统一的技术栈。原有的 Yarn 调度,节点管理技术,与当下宇宙标准 K8s 集群调度系统,目标是一样的。但是维护 2 种技术栈,就得增加研发人力成本,统一的基础设施技术栈,降成本效果明显。


(3)容器自动化能力。标准化是推动 IT 技术持续发展的原动力之一。容器技术本身理念就是一次构建,随处运行,这个与标准化理念是一致的。通过容器技术的标准化实施,并整合容器生态,建立运维系统。可以很好的降低业务系统的运维成本,甚至运维工具本身的构建和使用成本。


容器+存算分离,要速度也要成本


当前的大数据计算将计算和存储结合在一起的模式,是分布式架构构建的一种尝试。但是当社区修改 HDFS 以支持 Hadoop 3.0 的 ErasureCode(纠删码)时,即接受了:不(Wu)再(Fa)支持就近读取的策略。它就代表了一种新趋势:为了适应不同场景,存储空间和算力配比应该是灵活的,可以分别独立的构建。


IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”这一论断与很多企业正在进行的大数据架构变革不谋而合。



同时,伴随着容器技术的成熟及在各行业深入广泛的应用,企业愈发意识到容器技术的优势能很好解决大数据平台当前所遭遇的困境。容器以其更小颗粒度的算力分配、更轻量和快捷的部署方式、灵活的任务调度等特点,可以进一步提升资源利用率,并轻松应对大批量任务并发时的算力扩容。


鲲鹏之上,火山助力


华为云自主研发的鲲鹏处理器,具备多核高并发能力,可为用户提供包括裸金属服务器,云服务器,容器和 Serverless 在内的多种粒度的算力,大数据分布式场景性能可有大幅提升。


其中鲲鹏大数据容器,具有极致弹性的调度能力,可以每秒发放 1000 容器,减少资源弹性等待时间,提升计算效率。而裸金属容器技术,由于大幅降低虚拟化的开销,可更进一步的提升服务器执行业务的利用率。采用 Serverless 模式的容器集群,可以很好的支持按需弹性无限扩展,用来执行 Spark 大数据任务,轻松处理 PB 级数据作业。


Volcano(火山)项目是华为容器团队开源的一款 K8s 增强型调度器。初衷为了解决原生 K8s 不支持 Gang Scheduling 问题,后来由于 AI 和大数据等业务领域也开始对 K8s 有极大的述求,团队成员通过总结具体场景实践经验,打造有价值的技术产品,并贡献社区。


Volcano 通过高性能的调度算法,达到更高的容器调度速度。同时,自带的多种算法插件,可以极大的提升集群资源利用率。同时,Volcano 也补齐了 K8s 原生调度器与 Yarn 调度器间的 Gap,例如资源的队列管理(Queue)能力等。为大数据容器解决方案,插上了带火的翅膀。


大数据世界,容器来助威


BigData Pro 是业界首个鲲鹏大数据解决方案,该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+云+智能时代的全新挑战,实现企业智能化转型升级。


其中,鲲鹏大数据容器解决方案,作为 BigData Pro 解决方案中重要一员,更是提供了完整的容器化大数据解决方案。


在 2019 年度中国数据与存储峰会年度颁奖典礼上,华为云 BigData Pro 大数据解决方案荣获了“2019 年度大数据产品金奖”,也再一次展示了华为云在大数据领域的不凡实力。


2020 年 6 月 24 日 14:31540

评论

发布
暂无评论
发现更多内容

我写了一个TypeScript虚拟机。

渔子长

Java typescript 前端 deno Node

介绍

剑心

学习

oeasy 教您玩转 linux 010215 随机谚语 fortune

o

牛批!清华毕业的Java大牛用一个坦克大战游戏项目来演示设计模式

Java成神之路

Java 学习 编程 程序员 设计模式

@所有人 Flink Forward Asia 2020 向您发出议题征集邀请!

Apache Flink

flink

彻底理解JavaScript执行上下文

Walker

Java 前端 this指针 函数执行

两年Java开发经验赶上金九招聘季涨到23K,这究竟是怎么做到的?

Java架构师迁哥

Java面试史上最全的JAVA专业术语面试100问 (前1-50)

Java架构师迁哥

Week 13 学习总结

Jeremy

架构师训练营-第1周学习总结(1期)

阿甘

UML

Clickhouse在大数据分析平台-留存分析上的应用

小小的一朵云

大数据

架构师训练营-第1周课后作业(1期)

阿甘

Apache Pulsar 在腾讯 Angel PowerFL 联邦学习平台上的实践

Apache Pulsar

Apache 学习 开源 Apache Pulsar

LeetCode题解:206. 反转链表,双指针,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

甲方日常 15

句子

工作 随笔杂谈 日常

架构师训练营 - 大作业

张明森

用Go-Guardian写一个Golang的可扩展的身份认证

朱亚光

go golang 微服务 身份认证

Week 13 命题作业

Jeremy

架构师训练营第 0 期 期末大作业

无名氏

面试常考算法题之 Top K 问题

码农田小齐

数据结构 算法

Netty之旅三:Netty服务端启动源码分析,一梭子带走!

一枝花算不算浪漫

Netty

滴滴基于 Flink 的实时数仓建设实践

Apache Flink

flink

在Ubuntu 20.04 搭建 Django 开发环境 以及 快速构建一个简单的 Blog

Matrix Chan

Python django 后端开发 Ubuntu20.04

服务质量分析:腾讯会议&腾讯云Elasticsearch玩出了怎样的新操作?【>>戳文章免费体验Elasticsearch服务30天】

小小的一朵云

大数据

USDT跑分承兑系统开发,区块链支付平台搭建

13823153121

金融企业敏捷转型大咖风采 | 中国出口信用保险公司的 DevOps 落地之道

Atlassian速递

项目管理 DevOps 敏捷 行业资讯 Atlassian

哈哈,成为作者了

大海

百度大脑6.0重磅升级 不断进阶中的中国AI底座实力尽显

脑极体

繁星计划将成为引领全球币值管理的带动计划!

InfoQ_967a83c6d0d7

应对高并发系统有没有通用的解决方案呢?

架构师修行之路

架构 高并发 异步

读书笔记之《普罗普:故事形态学》

AI代笔

大数据容器化,头部玩家尝到了甜头?-InfoQ