发布了 19 篇内容
共 50675字, 被阅读 3163次
获得了 23 次赞同
获得了 10次喜欢, 获得了 13 次收藏
参与了 15 次互动
互动包含发布评论、点赞评论、参与投票等
基于 Ambari 的大数据平台搭建
同 CDH 部署类似,步骤分为 ambari 的部署和 hdp 的部署,先以 1 台为例 (内存>6G,磁盘划分 / 至少 40G,/data/10G),后续节点可以通过扩容方式加入集群,可参考:https://blog.csdn.net/qq_32593713/article/details/81429573
Kafka 实战宝典:一文带解决 Kafka 常见故障处理
Kafka 的 bin 目录下 shell 脚本是 kafka 自带的管理工具,提供 topic 的创建 / 删除 / 配置修改、消费者的监控、分区重载、集群健康监控、收发端 TPS 压测、跨机房同步等能力,Kafka 运维者可以使用这些工具进行集群的管理。
Kafka 实战宝典:如何跨机房传输数据
工作中遇到 Kafka 跨机房传输到远程机房的场景,之前的方案是使用 Flume 消费后转发到目标 kafka,当 topic 增多并且数据量变大后,维护性较差且 Flume 较耗费资源。
CDH 部署指南
Apache Hadoop 存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,CDH 是 Hadoop 商业发行版之一,本文介绍基于 Cloudera Manager 的 Cloudera Hadoop 6.1.0 大数据平台搭建,简单易上手
聊聊数据库
数据库的发展基本上也是伴随着计算机技术经历了 40 年的历史,从最初的文件系统上的文件,到有结构的层次和网状数据库,一直到今天被广泛使用的关系型数据库。随着互联网和物联网行业的兴起,数据量飞速增长,对大数据的采集、存储和应用是每个数据库必备的技能
从 0 到 1 搭建大数据平台之计算存储系统
前面已经给大家讲了《从 0 到 1 搭建大数据平台之数据采集系统》、《从 0 到 1 搭建大数据平台之调度系统》,今天给大家讲一下大数据平台计算存储系统。大数据计算平台目前主要都是围绕着 hadoop 生态发展的,运用 HDFS 作为数据存储,计算框架分为批处理、流处理。
从 0 到 1 搭建大数据平台之调度系统
目前大数据平台经常会用来跑一些批任务,跑批处理当然就离不开定时任务。比如定时抽取业务数据库的数据,定时跑 hive/spark 任务,定时推送日报、月报指标数据。任务调度系统已经俨然成为了大数据处理平台不可或缺的一部分。
最新评论
数据库的那些事
CDH 部署指南
数据库的那些事
数据分析师应该了解的数据湖