Hive 是基于 Hadoop 的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。hive 数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能,能将 SQL 语句转变成 MapReduce 任务来执行。Hive 的优点是学习成本低,可以通过类似 SQL 语句实现快速 MapReduce 统计,使 MapReduce 变得更加简单,而不必开发专门的 MapReduce 应用程序。hive 是十分适合数据仓库的统计分析和 Windows 注册表文件。
一线实践案例
更多内容推荐
Hadoop 实战篇(1)
在前面介绍过了Hadoop-离线批处理技术的整体架构,接下来便开始学习安装配置并使用 Hadoop ; 将从以下几点介绍: Linux 环境的配置与安装 Hadoop、Hadoop 的三种安装模式介绍、本地模式安装和伪集群模式安装
2021-06-05
成功从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤
从 Hadoop 迁移到基于云的现代架构(比如 Lakehouse 架构)的决定是业务决策,而非技术决策。我们在之前的文章中探讨了每一个组织都必须重新评估他们与 Hadoop 的关系的原因。本文中,我们将特别关注实际的迁移过程本身。你将学习成功迁移的关键步骤,以及 Lakehouse 架构在激发下一轮数据驱动创新中所扮演的角色。
数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展
2005年Hadoop出现的时候,大数据技术开始普及。
2022-10-18
Hadoop 的“遗产”
宣布 “Hadoop 已死”已成为一种时尚。但,Hadoop 让企业失去了对大数据的恐惧。
Hadoop UI 系统 -HUE 详细剖析
HUE=HadoopUser Experience
2021-03-19
Hive 基本理论和常用函数
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。
2021-11-21
看 CarbonData 如何用四招助力 Apache Spark
摘要:CarbonData 在 Apache Spark 和存储系统之间起到中介服务的作用,为 Spark 提供的4个重要功能。
2021-06-30
开篇词 | 入门 Spark,你需要学会“三步走”
通过“学、用、写”不断迭代的学习方式,我把零散的开发技巧归纳成了结构化的知识体系。
2021-09-06
Hadoop 生态里,为什么 Hive 活下来了?
Apache Hive 能在下一轮“淘汰”中幸存下来吗?
广播变量(一):克制 Shuffle,如何一招制胜!
“能省则省、能拖则拖”原则中,拖指的是把应用中会引入Shuffle的操作尽可能地往后面去拖,那省又是什么呢?
2021-04-09
Hive 窗口函数保姆级教程
在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又
2021-07-09
RDD 与编程模型:延迟计算是怎么回事?
RDD是构建Spark分布式内存计算引擎的基石。
2021-09-13
Hive 学习笔记(二)
本篇是Hive学习笔记第二篇,第一篇传送门https://xie.infoq.cn/article/0c0f67ab82ed951b27481341d
2021-07-07
Hadoop WordCount 案例
Hadoop WordCount案例
2022-05-10
5. Spark 的常见算子介绍
2023-09-08
Hadoop 入门笔记—核心组件 YARN
Apache YARN (Yet Another Resource Negotiator) 是 Hadoop 中的资源管理和作业调度系统, 在 Hadoop 2.x 时才被引入。
2021-11-22
Apache Sqoop 中最重要的核心概念 - 导入导出
“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据
2021-03-09
HDFS 文件限额配置
在多人共用HDFS的环境下,配置设置非常重要。特别是在Hadoop处理大量资料的环境,如果没有配额管理,很容易把所有的空间用完造成别人无法存取。Hdfs的配额设定是针对目录而不是针对账号,可以 让每个账号仅操作某一个目录,然后对目录设置配置。
2021-04-28
1. Flink 的 mapState、reduceingState 等操作
2023-09-08
01|Spark:从“大数据的 Hello World”开始
怎么用Spark完成一个小项目?
2021-09-06
推荐阅读
深入理解 HDFS(三):HRPC
2023-08-08
CDH5.11.2 集成 IceBerg(二):Spark3 适配
2023-06-30
Hive 查询语句
2023-01-09
3、打造企业级搜索词库管理体系
2023-09-26
第 20 讲 销售人员如何克制猜的习惯,养成问的习惯?
2023-10-17
2. ORM 框架概览:Beego ORM 分析
2023-09-26
Windows 下 hadoop 环境搭建之 NameNode 启动报错
2023-05-13
电子书
大厂实战PPT下载
换一换 祝海林 | Kyligence 技术合伙人、Byzer PMC
任跃华 | 快手 前端工程师
游望秋 | 火山引擎 RTC 实时传输网负责人
评论