Hive 是基于 Hadoop 的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。hive 数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能,能将 SQL 语句转变成 MapReduce 任务来执行。Hive 的优点是学习成本低,可以通过类似 SQL 语句实现快速 MapReduce 统计,使 MapReduce 变得更加简单,而不必开发专门的 MapReduce 应用程序。hive 是十分适合数据仓库的统计分析和 Windows 注册表文件。
一线实践案例
更多内容推荐
通俗易懂数仓建模—Inmon 范式建模与 Kimball 维度建模
在数据仓库领域,有两位大师,一位是“数据仓库”之父 Bill Inmon,一位是数据仓库权威专家 Ralph Kimball,两位大师每人都有一本经典著作,Inmon大师著作《数据仓库》及Kimball大师的《数仓工具箱》,两本书也代表了两种不同的数仓建设模式,这两种架构模式
2023-07-09
EasyMR 安全架构揭秘:如何管理 Hadoop 数据安全
近年来,数据安全正在快速成为当今信息化时代一个备受关注的话题。在数字化快速发展的今天,各个领域都离不开数据的支撑,而数据安全问题也随之成为了一项重要的任务。企业、政府、学术机构等各种组织和个人都需要保护自己的数据免于泄露、丢失、篡改或被滥用
2023-04-07
特别放送|知识回顾(上)
不知不觉咱们的课程已经接近尾声了,这节课我来带你划下重点,一起复习一下架构篇以及数据篇的内容。
2023-06-26
4. Flink 集成 Kafka
2023-09-08
Flink 核心机制:Watermark 详解
讲师介绍 张涛,现任阿里巴巴集团的技术专家,2012 年工作即入职大厂,有着丰富的大型分布式系统研发经验,尤其擅长分布式原理与数据结构,并有着多年带团队的经验。在多个大厂就职且担任面试官,能从行业领域给出职业生涯建议以及意见。 背景介绍 现在的社会,人们产生越来越多的数据,而数据对每个人都产生了巨大的影响。比如你去银行贷款,那么银行必然要对你做信用评估,会涉及大数据画像等数据分析。又比如美团外卖,则需要分析足够多的数据,给买卖各方做推荐引导,并同时结合大量的订单数据给骑手做配送引导。 所有的这一切都离不开大数据计算,而Flink作为其中的经典代表,有着极其重要的作用。成千上万的服务器上都跑着Flink应用,而Flink应用中有一个非常重要的机制——Watermark,它能够帮助我们处理事件延迟、乱序等问题,掌握这一机制对开发者来说至关重要。 内容看点 Watermark 介绍 用 Watermark 处理事件延迟问题 拓展:不同 source 源 Watermark 的处理方式
2022-06-24
【更新版】4. 计算架构模式之负载均衡技巧
2023-09-26
湖仓一体电商项目(二十):业务实现之编写写入 DM 层业务代码
DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析结果,
2023-02-12
数据湖(十四):Spark 与 Iceberg 整合查询操作
Spark操作Iceberg不仅可以使用SQL方式查询Iceberg中的数据,还可以使用DataFrame方式加载Iceberg表中的数据,可以通过spark.table(Iceberg表名)或者spark.read.format("iceberg").load("iceberg data path")来加载对应Iceberg表中的数据,操作如下:
2022-10-29
Flink 中的时间及窗口类型
在Flink中定义了3种时间类型:事件时间(Event Time)、处理时间(Processing Time)和摄取时间(Ingestion Time)。
2023-05-10
Linux 系统使用 cpulimit 对 CPU 使用率进行限制
cpulimit 是一个限制进程的 CPU 使用率的工具(以百分比表示,而不是以 CPU 时间表示)。
2023-07-08
读《Software Systems Architecture》(15)—— Introduction to the Viewpoint Catalog
读《Software Systems Architecture》(15)—— Introduction to the Viewpoint Catalog
2022-06-15
极客时间运维进阶训练营第三周作业
极客时间运维进阶训练营第三周作业
2022-11-12
云小课|MRS 基础原理之 Oozie 任务调度
Oozie是一个基于工作流引擎的开源框架,它能够提供对Hadoop作业的任务调度与协调。Oozie是一个工作流引擎服务器,用于运行MapReduce任务工作流。同时Oozie还是一个Java Web程序,运行在Tomcat容器中。
2022-10-31
数据治理(十三):Ranger 安装与启动
Ranger的安装这里选择单节点安装即可,后期需要在Ranger中安装Hive权限管理的插件,也需要在有Ranger环境下才能安装此插件,此插件管理Hive访问权限,必须安装到对应的Hive 服务器端,所以这里我们将Ranger安装到node1节点上(node1节点是HDFS节点,并且此节
2022-09-11
开心档之 Java 流 (Stream)、文件 (File) 和 IOJava.io
Java 流(Stream)、文件(File)和IOJava.io
2023-02-15
plist 文件格式转换器
plist文件是一种用于存储应用程序配置信息的文件格式,其中包含应用程序的各种设置和数据。在过去,plist文件通常是以.plist格式存储的。然而,随着时间的推移,人们开始使用.plistx格式来存储更复杂的数据结构和数据。如果您需要将.plist文件转换为.plistx格
2023-04-12
2. ORM 框架概览:Beego ORM 分析
2023-09-26
plist 文件是什么
plist 文件是一种用于存储应用程序配置信息的文件格式,其中包含应用程序的各种设置和数据。在过去,plist 文件通常是以.plist 格式存储的。然而,随着时间的推移,人们开始使用.plistx 格式来存储更复杂的数据结构和数据。如果您需要将.plist 文件转换为.pl
2023-04-12
开篇词 | 入门 Spark,你需要学会“三步走”
通过“学、用、写”不断迭代的学习方式,我把零散的开发技巧归纳成了结构化的知识体系。
2021-09-06
大数据 Hadoop 的五大优势
Hadoop与竞争对手相比有哪些优势?
2022-11-15
推荐阅读
Centos7 安装配置 Hive 教程。
2023-08-02
如何快速从 ETL 到 ELT?火山引擎 ByteHouse 做了这三件事
2023-09-18
31. 如何制定员工的个人绩效考核目标
2023-10-17
3. ORM 框架概览:GORM 和 Ent 分析
2023-09-26
SmartNews 基于 Flink 的 Iceberg 实时数据湖实践
2023-09-18
深入理解 HDFS(三):HRPC
2023-08-08
8. Knative Eventing
2023-09-27
电子书
大厂实战PPT下载
换一换 张城(元乙) | 阿里云 高级技术专家
William Yang | HashiCorp 资深解决方案工程师
伍思磊 | 作业帮 大数据中台/架构师
评论