五分钟学大数据



 写点什么

五分钟学大数据

2020 年 11 月 10 日加入

公众号：五分钟学大数据

大数据领域原创技术号，专注于大数据技术

 关注

82
发布数
65
关注者
0
关注了

全部分类 

yarn 的 applicationMaster 介绍

五分钟学大数据

4 月 30 日

ApplicationMaster 实际上是特定计算框架的一个实例，每种计算框架都有自己独特的 ApplicationMaster，负责与 ResourceManager 协商资源，并和 NodeManager 协同来执行和监控 Container。MapReduce 只是可以运行在 YARN 上一种计算框架。

hadoop 1.0 和 hadoop 2.0 的区别

五分钟学大数据

4 月 30 日

Hadoop1.0 即第一代 Hadoop，由分布式存储系统 HDFS 和分布式计算框架 MapReduce 组成，其中 HDFS 由一个 NameNode 和多个 DateNode 组成，MapReduce 由一个 JobTracker 和多个 TaskTracker 组成。

yarn 的基本介绍和产生背景

五分钟学大数据

4 月 30 日

YARN 是 Hadoop2 引入的通用的资源管理和任务调度的平台，可以在 YARN 上运行 MapReduce、Tez、Spark 等多种计算框架，只要计算框架实现了 YARN 所定义的接口，都可以运行在这套通用的 Hadoop 资源管理和任务调度平台上。

MapReduce 的参数优化

五分钟学大数据

4 月 30 日

以下调整参数都在 mapred-site.xml 这个配置文件当中有

MapReduce 排序以及序列化实践

五分钟学大数据

4 月 30 日

序列化（Serialization）是指把结构化对象转化为字节流。

MapReduce 设计构思

五分钟学大数据

4 月 30 日

MapReduce 是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在 Hadoop 集群上。

hdfs 的集群间拷贝、归档、回收站等功能剖析

五分钟学大数据

4 月 30 日

在我们实际工作当中，极有可能会遇到将测试集群的数据拷贝到生产环境集群，或者将生产环境集群的数据拷贝到测试集群，那么就需要我们在多个集群之间进行数据的远程拷贝，hadoop 自带也有命令可以帮我们实现这个功能

HDFS 的 Java API

五分钟学大数据

4 月 28 日

在 Java 中操作 HDFS, 主要涉及以下 Class:

hdfs 中 datanode 工作机制以及数据存储

五分钟学大数据

4 月 28 日

1）一个数据块在 datanode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

hdfs namenode 的故障恢复

五分钟学大数据

4 月 28 日

在我们的 secondaryNamenode 对 namenode 当中的 fsimage 和 edits 进行合并的时候，每次都会先将 namenode 的 fsimage 与 edits 文件拷贝一份过来，所以 fsimage 与 edits 文件在 secondarNamendoe 当中也会保存有一份，如果 namenode 的 fsimage 与 edits 文件损坏，那么我们可以将