快手、孩子王、华为等专家分享大模型在电商运营、母婴消费、翻译等行业场景的实际应用 了解详情
写点什么

大数据容器化,头部玩家尝到了甜头?

  • 2019-12-20
  • 本文字数:2185 字

    阅读完需:约 7 分钟

大数据容器化,头部玩家尝到了甜头?

大数据的需求热度,从来都是这个时代的风口浪尖。


然而由于大数据系统的复杂性,一度导致业界大数据已死的各种声音质疑不断。尤其当 MapR 被 HPE 收购,Cloudera 公司股票持续断崖式下跌,叫衰之声进而进一步放大。其实,大数据的需求一直在,只是传统的大数据实现系统需要考虑重新构建,而容器依靠其自身标准化、一次构建随处运行的能力,非常适合用于大数据系统的构建和管理。容器技术当前正是那只火遍全球的当红辣子鸡。

华为云 BigData Pro 大数据解决方案荣获行业年度金奖

12 月 3 日晚,2019 年度中国数据与存储峰会年度颁奖典礼上,华为云 BigData Pro 大数据解决方案荣获“2019 年度大数据产品金奖”,再一次展示了华为云在大数据领域的不凡实力。中国数据与存储峰会(DSS)是国内顶级的数据与存储领域技术盛会,其颁发的奖项颇具含金量,在十多年间见证了国内数据存储技术和行业的迅猛发展。此次评选范围涉及私有云大数据、公有云大数据、大数据软件、大数据解决方案等多个领域和维度。本次华为云 BigData Pro 能一举拿下该奖项,也是实至名归。

大数据容器化,大势所趋


目前已经有大量的大数据系统原生支持 on Kubernetes,例如 Spark 官方版本,从 2.3 开始,就可以无需任何修改直接跑在 K8s 上。不仅如此,“更好地在 K8s 上运行”已成为后续版本演进的的重大策略, K8s 对大数据系统的重要性可见一斑。

队友已在加速,你感受到了么

鉴于容器技术对大数据具有良好助推作用,已经有不少技术嗅觉敏锐的头部玩家在此尝到了甜头。


短短几年间,行业已涌现出多个正面案例,中国联通的容器化大数据平台已实践,京东在使用 Kubernetes 管理大数据中心,网易基于 Kubernetes 和 Docker 构建构建了猛犸大数据平台,茄子科技直接将大数据任务大量在生产环境跑在 K8s 之上,华为云 DLI 服务容器化,阿里云 Flink on K8s 等。不言而喻,容器技术助力大数据分析,已广泛应用于各行各业,与其艰难维护自身的庞大的大数据系统,停下来看看业内的趋势、思考当前的应对措施方为良策。


BigData on K8s 最直接的优势并非性能提升,而是成本下降。


(1)高利用率的资源调度平台。原来分散在多个集群中的业务,可以合并到统一的集群中,加上长任务短任务混部及不同业务高峰时间的削峰填谷,来最大化提升集群资源利用率。


(2)统一的技术栈。原有的 Yarn 调度,节点管理技术,与当下宇宙标准 K8s 集群调度系统,目标是一样的。但是维护 2 种技术栈,就得增加研发人力成本,统一的基础设施技术栈,降成本效果明显。


(3)容器自动化能力。标准化是推动 IT 技术持续发展的原动力之一。容器技术本身理念就是一次构建,随处运行,这个与标准化理念是一致的。通过容器技术的标准化实施,并整合容器生态,建立运维系统。可以很好的降低业务系统的运维成本,甚至运维工具本身的构建和使用成本。

容器 + 存算分离,要速度也要成本

当前的大数据计算将计算和存储结合的模式,是分布式架构构建的一种尝试。但是当社区修改 HDFS 以支持 Hadoop 3.0 的 ErasureCode(纠删码)时,即接受了:不再支持就近读取的策略。它代表了一种新趋势:为了适应不同场景,存储空间和算力配比应该是灵活的,可以分别独立构建。


IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”这一论断与很多企业正在进行的大数据架构变革不谋而合。



同时,伴随着容器技术的成熟及在各行业深入广泛的应用,企业愈发意识到容器技术的优势能很好解决大数据平台当前所遭遇的困境。容器以其更小颗粒度的算力分配、更轻量和快捷的部署方式、灵活的任务调度等特点,可以进一步提升资源利用率,并轻松应对大批量任务并发时的算力扩容。

鲲鹏之上,火山助力

华为云自主研发的鲲鹏处理器,具备多核高并发能力可为用户提供包括裸金属服务器、云服务器、容器和 Serverless 在内的多种粒度的算力,大数据分布式场景性能可大幅提升。


其中鲲鹏大数据容器,具有极致弹性的调度能力,可以每秒发放 1000 容器,减少资源弹性等待时间,提升计算效率。而裸金属容器技术,由于大幅降低虚拟化开销,可更进一步提升服务器执行业务的利用率。采用 Serverless 模式的容器集群,可以很好地支持按需弹性无限扩展,用来执行 Spark 大数据任务,轻松处理 PB 级数据作业。


Volcano 项目是华为容器团队开源的一款 K8s 增强型调度器。初衷是为了解决原生 K8s 不支持 Gang Scheduling 问题,后来由于 AI 和大数据等业务领域也开始对 K8s 有极大诉求,团队成员通过总结具体场景实践经验,将其打造成有价值的技术产品,并贡献社区。


Volcano 通过高性能的调度算法,达到更高的容器调度速度。同时,自带的多种算法插件,可以极大地提升集群资源利用率。此外,Volcano 也补齐了 K8s 原生调度器与 Yarn 调度器间的 Gap,例如资源的队列管理(Queue)能力等,大大提升了容器大数据技术的性能。

容器技术为华为云 BigData Pro 解决方案助力

BigData Pro 是业界首个鲲鹏大数据解决方案,该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+ 云 + 智能时代的全新挑战,实现企业智能化转型升级。


2019-12-20 17:442143

评论

发布
暂无评论
发现更多内容

已献出膝盖!GitHub上的宝藏级SpringBoot核心文档,讲得太清晰了

退休的汤姆

程序员 面经 面试技巧 秋招 Java八股文

如何不编写 YAML 管理 Kubernetes 应用?

北京好雨科技有限公司

设计模式的艺术 第二十五章模板方法设计模式练习(用模板方法模式开发一个数据库操作模块,用户只需将SQL语句作为参数传入模板方法,则可实现连接数据库、打开数据库、操作数据库(查询或更新)、关闭数据库等操作)

代廉洁

设计模式的艺术

LeetCode-35. 搜索插入位置(java)

bug菌

9月日更 Leet Code 9月月更

leetcode 148. Sort List 排序链表(中等)

okokabcd

LeetCode 算法与数据结构

Java进阶(四)Java反射TypeToken解决泛型运行时类型擦除问题

No Silver Bullet

Java 反射 9月月更 typeToken

mysql进阶

楠羽

MySQL 笔记 9月月更

Alibaba内传(2022更新版《面试速成手册》)流出,熬夜看到176页,YYDS!

程序知音

Java 阿里 程序员面试 后端技术 Java面试八股文

「知识点」曾经忽略的arguments

叶一一

JavaScript 前端 9月月更

「趣学前端」SVG,边学边做

叶一一

JavaScript 前端 9月月更

神级编程网站,堪称程序员的充电站,我给你找好了不能错过

C语言与CPP编程

编程 程序员 网站 计算机 编程语言‘

redis数据结构之压缩列表

急需上岸的小谢

9月月更

5 个 JavaScript 写法小技巧分享

掘金安东尼

JavaScript 9月月更

从改善设计的角度理解TDD

Bright

敏捷 TDD

Mavan:自定义骨架及工程初始化

程序员架构进阶

maven 低代码 9月日更 9月月更

C语言:位段、枚举、联合体

孤衫

后端 C语言 枚举 9月月更

新零售SaaS架构:商品系统架构设计

架构师汤师爷

系统架构 SaaS 新零售

设计模式的艺术 第二十四章策略设计模式练习(开发一款飞机模拟系统,该系统主要模拟不同种类飞机的飞行特征与起飞特征,为了将来能够模拟更多种类的飞机,试采用策略模式设计该飞机模拟系统)

代廉洁

设计模式的艺术

好代码的五个特质-CUPID

Bright

敏捷 DDD TDD

容灾数据一致性保障探讨

agnostic

容灾 CAP

LeetCode-53. 最大子数组和(java)

bug菌

9月日更 Leet Code 9月月更

拆分电商系统为微服务

张立奎

从改善设计的角度理解TDD (2)

Bright

敏捷 TDD

我理解的Smart Domain与DDD

Bright

敏捷 DDD TDD

C++学习------cstdint头文件的源码学习

桑榆

c++ 源码阅读 9月月更

如何看待2023年秋招技术岗哀鸿遍野?

退休的汤姆

程序员 互联网 面试 社招 秋招

四天拿捏Spring Security?这份清华大佬总结的笔记究竟有多离谱

了不起的程序猿

Java spring 程序员 JAVA开发 spring security

FreeRTOS记录(一、熟悉开发环境以及CubeMX下FreeRTOS配置)

矜辰所致

STM32CubeMX FreeRTOS 9月月更

大型网站架构

源字节1号

软件架构 后端开发

用TDD开发基于数据库的长时任务系统

Bright

敏捷 DDD TDD

你真的理解C语言中的 “ 数组 ” 吗?(初阶篇)

Albert Edison

数组 C语言 开发语言 二维数组 9月月更

大数据容器化,头部玩家尝到了甜头?_架构_司马懿_InfoQ精选文章