速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

华为云 BigData Pro 解读: 鲲鹏云容器助力大数据破茧成蝶

  • 2020-03-23
  • 本文字数:1725 字

    阅读完需:约 6 分钟

华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶

大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到 20 年时间,已渗透到社会生产和人们生活的方方面面。


然而,伴随着信息量的指数级增长,大数据也开始面临存储资源告急、算力吃紧、数据处理效率无法满足业务增长诉求等一系列问题,导致唱衰之声此起彼伏。


而近年来兴起的容器技术,以其轻量化、易迁移、扩容快等优势,结合计算存储分离的分布式架构,可以更好地发挥大数据平台在海量数据集、高并发、实时分析等应用场景下的优势。

翩然入世

互联网、汽车、保险、电力、零售等行业,利用海量信息分析用户特征及行为模式,从而制定更贴近用户的服务方案、商业策略,并进行精准推送。


目前大部分数据分析都在 Hadoop 生态中进行,Hadoop 也凭借其完善的生态,备受用户欢迎,成为主流的开源大数据平台,也成为了大数据的代名词。

困蛹之境


然而,从 2006 第一个 Hadoop 版本发布算起的话,大数据的发展也经历了至少 13 个年头,当初引以为傲的“计算存储融合”架构以及先进的数据分析理念和实践,也开始遭受挑战:


1、 计算存储资源耦合,无法灵活调整存算配比,只能按固定比例扩容,导致部分资源浪费;


2、 数据中心建设成本高,后期运维成本有高,性价比和灵活度均不如公有云方案;


3、 互联网时代,数据爆炸式增长,现有数据中心资源不足,极易导致作业拥塞,降低计算效率;


4、 大数据与其它业务资源池无法共享,需分开维护多套,进一步增加运维成本。


此外,AI、机器学习、自然语言处理(NLP)等概念的兴起,也对大数据造成冲击,“大数据已死”的风声开始不绝于耳。

破茧之挣


随着 5G+云+AI 时代来临,数据变得更多、更复杂、更精细化,大数据不仅没有死,反而对企业变得前所未有的重要。而亟待我们解决的问题是:如何用一种更高效、更实用的解决方案,处理爆炸式增长的数据。


围绕这一课题,各大公司也展开了新一轮的技术探索与升级。


首先,基础网络飞速发展,网络传输已不再是瓶颈,许多公司开始在大数据的存储和计算分离方面做尝试,效果如何呢?IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”


同时,伴随着容器技术的成熟及在各行业的深入应用,部分企业也着手于平台的容器化改造,希望结合容器的优势,为大数据平台赋予新的力量。


二者结合,我们似乎看到了大数据蜕变的曙光。

化蝶之旅


目前,存算分离的方案相对已经比较成熟,容器化方案还处于探索和小规模应用阶段,以 Spark 为例,方案大体上分为 2 种:


一种是 Spark Standalone,该方案仅对大数据系统做容器化部署改造,得益于容器轻量化、更细粒度的算力管理、任务隔离等特点,可以将主机划分成更多小颗粒的任务单元,使主机资源利用率更高,同时兼顾用户原有的使用习惯。


但此方案需要提前分配固定的容器数量,并保持容器的持续运行,无法对容器进行动态管理,资源的利用率虽然有所提升,但仍存在浪费。


另一种是 Spark On Kubernetes 集群方案,该方案使用 Kubernetes 替代 Yarn 来进行统一的资源编排和调度,技术上更贴近主流容器解决方案,免去了二层调度,可以进一步提升资源管理效率,相比 Standalone 方案,实现了对容器资源的动态管理,优化了资源分配。


绿色动图分割线


然而,Kubernetes 不属于 Hadoop 生态组件,与传统 Spark on YARN 相比存在一些劣势,如:缺少任务队列、external shuffle service 等特性,且性能较差。因此在应用到生产系统时,还要做大量的功能增强、调度和性能优化,才能保持与传统大数据平台一致。


针对客户容器化过程中的问题,华为云计划推出鲲鹏大数据容器解决方案,该方案与 BigData Pro 相结合,将提供一套更完善的容器化大数据解决方案。


BigData Pro 是业界首个鲲鹏大数据解决方案


该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+云+智能时代的全新挑战,实现企业智能化转型升级。


本文转载自华为云产品与解决方案公众号。


原文链接:https://mp.weixin.qq.com/s/g6rFKg3zak7tcNSVa84soA


2020-03-23 22:33788

评论

发布
暂无评论
发现更多内容

安全测试前置实践2-安全渗透测试

京东科技开发者

测试 安全测试 功能测试 网络安全渗透测试 企业号 4 月 PK 榜

使用Python实现一个简单的垃圾邮件分类器

海拥(haiyong.site)

三周年连更

投放视频广告时,如何快速与第三方播放器兼容?

HarmonyOS SDK

HMS Core

横扫一线大厂面试的高并发笔记到底有多硬核?

小小怪下士

Java 程序员 后端 高并发 java面试

阿里P8面试官让我吃透这份10W字Java面试题,终于拿下Java高级岗Offer

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

跟随项曙明走进中兴通讯,探索企业开源风险治理优秀实践

开源雨林

开源治理 中兴通讯

【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)

汀丶人工智能

人工智能 数据挖掘 机器学习 深度学习 模型融合

技术不行还说Java卷!靠468页SpringBoot企业级项目实战成功逆袭

做梦都在改BUG

Java 微服务 Spring Boot 框架

SpringCloud 网关实现线程池异步批量保存请求日志

Java你猿哥

spring Spring Cloud Java工程师 日志表

Redis源码之SDS简单动态字符串

Java你猿哥

Java redis ssm Java工程师

一文解读基于PaddleSeg的钢筋长度超限监控方案

飞桨PaddlePaddle

人工智能 图像识别 飞桨

聊聊简单又不简单的图上多跳过滤查询

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

分享:CUDB for OceanBase分布式数据库产品规模应用

OceanBase 数据库

数据库 oceanbase

人工智能基础数据服务,第一!

百度开发者中心

人工智能 数据标注 元宇宙

京东技术专家首推:微服务架构深度解析,GitHub星标120K

Java你猿哥

数据库 架构 微服务 ssm Java微服务

关于Blender你想了解的都在这里

Finovy Cloud

blender 3D软件

cad看图:MiniCAD 中文版

真大的脸盆

Mac Mac 软件 cad cad看图

ChatGPT背后的AI背景、技术门道和商业应用(万字长文,建议收藏)

京东科技开发者

人工智能 AI ChatGPT 人工智能ChatGPT 吗? 企业号 4 月 PK 榜

3000字13张图详细介绍RAID0、1、5、6、10、50、60,非常值得收藏!

wljslmz

raid 存储技术 三周年连更

分享:作业帮在多云环境下的高可用双活架构优化实践

OceanBase 数据库

数据库 oceanbase

数据解析NFT Q1市场表现:NFT生态正向Polygon聚拢,蓝筹项目"保值"难

NFT Research

数据分析 NFT

Kubernetes 中容器跨主机网络是怎么样的?

做梦都在改BUG

Java Kubernetes 云原生

基于IM的企业移动应用平台,支持企业定制化

WorkPlus

SpringCloud 网关实现线程池异步批量保存请求日志

做梦都在改BUG

Java Spring Cloud 网关设计

硬核!互联网资深大佬手码高并发编程速成笔记(2023版)限时开源

Java你猿哥

性能优化 系统架构 ssm 高并发 Java高并发

什么是接口定义? 接口定义的概念和用途详解

Apifox

前端 接口 后端 API 接口定义

私有化视频会议系统, WorkPlus Meet助力企业 “面对面”安全开会!

WorkPlus

面对向多模态发展的趋势,为什么这些业界和学界专家说“不必追热点”

小红书技术REDtech

深度学习 专家 活动回顾

java性能优化实战:高并发系统的法宝之缓存设计

Java你猿哥

高并发 缓存并发 缓存设计 Java高并发 Java性能优化

数据库原理及MySQL应用 | 日志管理

TiAmo

数据库 MySQL数据库 日志管理 三周年连更

AI与打工人:相互补充,共同进步 | 社区征文

海拥(haiyong.site)

三周年征文

华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶_云原生_华为云产品与解决方案_InfoQ精选文章