一、环境准备
已安装 Apache Spark 2.2.0(此版本仅支持 Apache Spark 2.2.0, 其他 Spark 版本后续会兼容)
已安装 MySQL 并启动,且开启远程访问
各安装节点已经配置 ssh 免密登录
二、下载
moonbox-0.3.0-beta 下载:https://github.com/edp963/moonbox/releases/tag/0.3.0-beta
三、解压
tar -zxvf moonbox-assembly_2.11-0.3.0-beta-dist.tar.gz
四、修改配置文件
配置文件位于 conf 目录下
step 1: 修改 slaves
mv slaves.example slaves
vim slaves
将会看到如下内容:
localhost
请根据实际情况修改为需要部署 worker 节点的地址, 每行一个地址
step 2: 修改 moonbox-env.sh
mv moonbox-env.sh.example moonbox-env.sh
chmod u+x moonbox-env.sh
vim moonbox-env.sh
将会看到如下内容:
export JAVA_HOME=path/to/installed/dir
export SPARK_HOME=path/to/installed/dir
export YARN_CONF_DIR=path/to/yarn/conf/dir
export MOONBOX_SSH_OPTS="-p 22"
export MOONBOX_HOME=path/to/installed/dir
\# export MOONBOX_LOCAL_HOSTNAME=localhost
export MOONBOX_MASTER_HOST=localhost
export MOONBOX_MASTER_PORT=2551
请根据实际情况修改
step 3: 修改 moonbox-defaults.conf
mv moonbox-defaults.conf.example moonbox-defaults.conf
vim moonbox-defaults.conf
将会看到以下内容,其中:
catalog
配置元数据存储位置, 必须修改, 请根据实际情况修改
rest
配置 rest 服务, 按需修改
tcp
配置 tcp(jdbc)服务, 按需修改
local
配置 Spark Local 模式作业, 值为数组, 有多少个元素表示每个 Worker 节点启动多少个 Spark Local 模式作业。如不需要可删除。
cluster
配置 Spark yarn 模式作业, 值为数组, 有多少个元素表示每个 Worker 节点启动多少个 Spark Yarn 模式作业。如不需要可删除。
moonbox {
deploy {
catalog {
implementation = "mysql"
url = "jdbc:mysql://host:3306/moonbox?createDatabaseIfNotExist=true"
user = "root"
password = "123456"
driver = "com.mysql.jdbc.Driver"
}
rest {
enable = true
port = 9099
request.timeout = "600s"
idle.timeout= "600s"
}
tcp {
enable = true
port = 10010
}
}
mixcal {
pushdown.enable = true
column.permission.enable = true
spark.sql.cbo.enabled = true
spark.sql.constraintPropagation.enabled = false
local = [{}]
cluster = [{
spark.hadoop.yarn.resourcemanager.hostname = "master"
spark.hadoop.yarn.resourcemanager.address = "master:8032"
spark.yarn.stagingDir = "hdfs://master:8020/tmp"
spark.yarn.access.namenodes = "hdfs://master:8020"
spark.loglevel = "ERROR"
spark.cores.max = 2
spark.yarn.am.memory = "512m"
spark.yarn.am.cores = 1
spark.executor.instances = 2
spark.executor.cores = 1
spark.executor.memory = "2g"
}]
}
}
optional: 如果 HDFS 配置了高可用(HA)、或者 HDFS 配置了 kerberos、或者 YARN 配置了高可用(HA)、或者 YARN 配置了 kerberos
将 cluster 元素中相关部分改为以下配置, 请根据实际情况修改。具体值可查阅 hdfs 配置文件和 yarn 配置文件。
\#### HDFS HA ####
spark.hadoop.fs.defaultFS="hdfs://service_name"
spark.hadoop.dfs.nameservices="service_name"
spark.hadoop.dfs.ha.namenodes.service_name="xxx1,xxx2"
spark.hadoop.dfs.namenode.rpc-address.abdt.xxx1="xxx1_host:8020"
spark.hadoop.dfs.namenode.rpc-address.abdt.xxx2="xxx2_host:8020"
spark.hadoop.dfs.client.failover.proxy.provider.abdt="org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
spark.yarn.stagingDir = "hdfs://service_name/tmp"
\#### HDFS kerberos ####
dfs.namenode.kerberos.principal = ""
dfs.namenode.kerberos.keytab = ""
\#### YARN HA ####
spark.hadoop.yarn.resourcemanager.ha.enabled=true
spark.hadoop.yarn.resourcemanager.ha.rm-ids="yyy1,yyy2"
spark.hadoop.yarn.resourcemanager.hostname.rm1="yyy1_host"
spark.hadoop.yarn.resourcemanager.hostname.rm2="yyy2_ho
st"
\#### YARN kerberos ####
spark.yarn.principal = ""
spark.yarn.keytab = ""
本文转载自宜信技术学院网站。
原文链接:http://college.creditease.cn/detail/271
更多内容推荐
分布式存储和区块链结合能碰撞出怎样的火花?
分布式存储和区块链结合能碰撞出怎样的火花?
2021-10-25
技术揭秘 | 阿里云 EMR StarRocks 线上发布会预约开启!
2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!
2022-05-07
加餐 03|学习攻略(二):大数据 & 云计算,究竟怎么学?
这节课我们学到了开源大数据生态中的三个重要角色,它们是Hadoop大数据平台的基础,负责了文件存储、资源管理和分布式协调。
2022-12-26
19|自托管构建:如何使用 Harbor 搭建企业级镜像仓库?
这节课,我们来学习如何使用 Harbor 来搭建企业级的镜像仓库。
2023-01-20
2022 年的 SaaS 行业,钱往哪里去?
来源 / ToB行业头条 (ID:wwwqifu)
2022-03-02
数据治理(十三):Ranger 安装与启动
Ranger的安装这里选择单节点安装即可,后期需要在Ranger中安装Hive权限管理的插件,也需要在有Ranger环境下才能安装此插件,此插件管理Hive访问权限,必须安装到对应的Hive 服务器端,所以这里我们将Ranger安装到node1节点上(node1节点是HDFS节点,并且此节
2022-09-11
Week13 作业
Week13 作业
2021-01-17
深入理解 JobScheduler 与 JobService 的使用
private void onJobStartClick() {JobScheduler jobScheduler = (JobScheduler) getSystemService(JOB_SCHEDULER_SERVICE);ComponentName componentName = new ComponentName(this, MyJobService.class);JobInfo jobinfo = new JobInfo.Builder(JOB_INFO_ID,
2021-11-07
05|K8s 极简实战:示例应用介绍
这节课,我们来设计一个更加接近真实业务的示例应用。
2022-12-19
云小课|MRS 数据分析 - 通过 Spark Streaming 作业消费 Kafka 数据
Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介绍如何使用MRS集群运行Spark Streaming作业消费Kafka数据。
2023-02-23
其它内置函数
2022-12-29
18|自托管构建:如何使用 Tekton 构建镜像?
这节课,我们来介绍其中一种自动构建镜像的自托管方案:使用 Tekton 来自动构建镜像。
2023-01-18
兆骑科创高层次人才引进平台,创新创业赛事活动路演
兆骑科创高层次人才引进平台,创新创业赛事活动路演
2022-08-03
我们这个课程的系统是怎么搭建起来的?
我们当时在分析 OpenStack 本身的问题上花费了很多时间,对于我们的这个系统来说,这是没有必要的。
2021-05-28
Linux 之 traceroute 命令
【Linux常用命令速查手册】关注【入门小站】,后台回复 「1001」 自取。
2022-03-07
部署 spark2.2 集群 (standalone 模式)
一起来实战部署spark2.2集群(standalone模式)
2022-08-08
产品经理 - 第一周作业
横向对⽐不同公司 / 产品岗位的差异,写⼀份备忘录,最好有结论,请注意排版和⽂件格式,建议图⽂并茂
2021-01-20
数据治理(十六):Ranger 管理 HDFS 安全
访问Hive有两种方式:HiveServer2和Hive Client,Hive Client需要Hive和Hadoop的jar包,配置环境。HiveServer2使得连接Hive的Client从Yarn和HDFS集群中独立出来,不需要每个节点都配置Hive和Hadoop的jar包和一系列环境。
2022-09-14
Spark 系列教程(1)Word Count
Spark 是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架。Spark 在 2009 年诞生于加州大学伯克利分校 AMP 实验室,2010 年开源,2014 年 2月成为 Apache 顶级项目。
2021-09-25
Kubernetes MetalLB 作为 Load Balancer 下
在上一篇《在 Kubernetes 集群中使用 MetalLB 作为 LoadBalancer(上)》中,我们使用 MetalLB 的 Layer2 模式作为 LoadBalancer 的实现,将 Kubernetes 集群中的服务暴露到集群外。
2022-08-23
推荐阅读
11. 结构型 - 组合模式 Compose
2023-02-15
第一财经《导师带回血三期必中》MBA 智库百科
2023-09-04
大模型时代人工智能技术的应用趋势
2024-12-12
模块 7 作业 王者荣耀线上商城异地多活架构设计
2023-08-04
20. RocketMQ Pull 拉取消费模式
2023-02-16
31|项目实战与部署:如何实现接口部署与访问?
2023-07-03
LAS Spark+ 云原生:数据分析全新解决方案
2023-10-18
电子书
大厂实战PPT下载
换一换 麦玮嘉 | Seal 首席研发工程师
刘志保 | OPPO 移动研发平台负责人
王栋年 | 群核科技 资深专家
评论