
一、环境准备
已安装 Apache Spark 2.2.0(此版本仅支持 Apache Spark 2.2.0, 其他 Spark 版本后续会兼容)
已安装 MySQL 并启动,且开启远程访问
各安装节点已经配置 ssh 免密登录
二、下载
moonbox-0.3.0-beta 下载:https://github.com/edp963/moonbox/releases/tag/0.3.0-beta
三、解压
tar -zxvf moonbox-assembly_2.11-0.3.0-beta-dist.tar.gz
四、修改配置文件
配置文件位于 conf 目录下
step 1: 修改 slaves
mv slaves.example slaves
vim slaves
将会看到如下内容:
localhost
请根据实际情况修改为需要部署 worker 节点的地址, 每行一个地址
step 2: 修改 moonbox-env.sh
mv moonbox-env.sh.example moonbox-env.sh
chmod u+x moonbox-env.sh
vim moonbox-env.sh
将会看到如下内容:
export JAVA_HOME=path/to/installed/dir
export SPARK_HOME=path/to/installed/dir
export YARN_CONF_DIR=path/to/yarn/conf/dir
export MOONBOX_SSH_OPTS="-p 22"
export MOONBOX_HOME=path/to/installed/dir
\# export MOONBOX_LOCAL_HOSTNAME=localhost
export MOONBOX_MASTER_HOST=localhost
export MOONBOX_MASTER_PORT=2551
请根据实际情况修改
step 3: 修改 moonbox-defaults.conf
mv moonbox-defaults.conf.example moonbox-defaults.conf
vim moonbox-defaults.conf
将会看到以下内容,其中:
catalog
配置元数据存储位置, 必须修改, 请根据实际情况修改
rest
配置 rest 服务, 按需修改
tcp
配置 tcp(jdbc)服务, 按需修改
local
配置 Spark Local 模式作业, 值为数组, 有多少个元素表示每个 Worker 节点启动多少个 Spark Local 模式作业。如不需要可删除。
cluster
配置 Spark yarn 模式作业, 值为数组, 有多少个元素表示每个 Worker 节点启动多少个 Spark Yarn 模式作业。如不需要可删除。
moonbox {
deploy {
catalog {
implementation = "mysql"
url = "jdbc:mysql://host:3306/moonbox?createDatabaseIfNotExist=true"
user = "root"
password = "123456"
driver = "com.mysql.jdbc.Driver"
}
rest {
enable = true
port = 9099
request.timeout = "600s"
idle.timeout= "600s"
}
tcp {
enable = true
port = 10010
}
}
mixcal {
pushdown.enable = true
column.permission.enable = true
spark.sql.cbo.enabled = true
spark.sql.constraintPropagation.enabled = false
local = [{}]
cluster = [{
spark.hadoop.yarn.resourcemanager.hostname = "master"
spark.hadoop.yarn.resourcemanager.address = "master:8032"
spark.yarn.stagingDir = "hdfs://master:8020/tmp"
spark.yarn.access.namenodes = "hdfs://master:8020"
spark.loglevel = "ERROR"
spark.cores.max = 2
spark.yarn.am.memory = "512m"
spark.yarn.am.cores = 1
spark.executor.instances = 2
spark.executor.cores = 1
spark.executor.memory = "2g"
}]
}
}
optional: 如果 HDFS 配置了高可用(HA)、或者 HDFS 配置了 kerberos、或者 YARN 配置了高可用(HA)、或者 YARN 配置了 kerberos
将 cluster 元素中相关部分改为以下配置, 请根据实际情况修改。具体值可查阅 hdfs 配置文件和 yarn 配置文件。
\#### HDFS HA ####
spark.hadoop.fs.defaultFS="hdfs://service_name"
spark.hadoop.dfs.nameservices="service_name"
spark.hadoop.dfs.ha.namenodes.service_name="xxx1,xxx2"
spark.hadoop.dfs.namenode.rpc-address.abdt.xxx1="xxx1_host:8020"
spark.hadoop.dfs.namenode.rpc-address.abdt.xxx2="xxx2_host:8020"
spark.hadoop.dfs.client.failover.proxy.provider.abdt="org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
spark.yarn.stagingDir = "hdfs://service_name/tmp"
\#### HDFS kerberos ####
dfs.namenode.kerberos.principal = ""
dfs.namenode.kerberos.keytab = ""
\#### YARN HA ####
spark.hadoop.yarn.resourcemanager.ha.enabled=true
spark.hadoop.yarn.resourcemanager.ha.rm-ids="yyy1,yyy2"
spark.hadoop.yarn.resourcemanager.hostname.rm1="yyy1_host"
spark.hadoop.yarn.resourcemanager.hostname.rm2="yyy2_ho
st"
\#### YARN kerberos ####
spark.yarn.principal = ""
spark.yarn.keytab = ""
本文转载自宜信技术学院网站。
原文链接:http://college.creditease.cn/detail/271
更多内容推荐
兼容认证|青云 QKCP 与观测云完成产品兼容性互认证,携手打造云原生可观测能力
近日,青云科技QKCP 企业级容器平台与观测云顺利完成产品兼容性互认证。经过共同测试,双方产品兼容性良好,可以顺利安装、配置,且稳定运行,性能表现优异。
2022-07-20
Hive SQL 优化思路
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。
2021-11-09
18|自托管构建:如何使用 Tekton 构建镜像?
这节课,我们来介绍其中一种自动构建镜像的自托管方案:使用 Tekton 来自动构建镜像。
2023-01-18
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保 SLA?
大家知道,在生产环境的大数据集群中,在向资源管理器YARN提交作业时,我们一般会将作业提交到管理员指定的队列去执行,以利用 YARN 队列的资源隔离性确保作业能够获得足够的资源进行执行,从而确保SLA。
2022-09-22
centos7 的启动流程(systemctl)
chkconfig sshd –list ==> ls /etc/systemd/system/*.wants/sshd.service
2022-05-05
晚安吻
在我的认知里,男的都是不善于情感表达的,或者压根就是感受力很钝的。而女性相对来讲更感性,更善于情感的表达。
2021-12-21
Go 语言学习查缺补漏 ing Day4
本【Go语言查缺补漏ing】系列主要是帮助新手Gopher更好的了解Go语言的易错点、重难点。
2021-12-07
袭卷面试大厂!秋招最全 Java 面试八股文,堪称大厂 offer 收割机!
2022年的互联网行业竞争越来越严峻,面试也是越来越难,一直以来我都想整理一套完美的面试宝典,奈何难抽出时间,这套1000+道的Java面试手册我整理了整整1个月,上传到Git上目前star数达到了30K+
2022-08-20
CLI 新功能之多项目启动器
大家好,我是小鑫同学。一位从事过Android开发、混合开发,现在长期从事前端开发的编程爱好者,我觉得在编程之路上最重要的是知识的分享,所谓三人行必有我师。所以我开始在社区持续输出我所了解到、学习到、工作中遇到的各种编程知识,欢迎有想法、有同感的
2022-10-12
一个三年 Java 程序员的面试总结!绝对会对你有所帮助
前言
2022-11-27
1. 离线数仓(一)
2023-09-08
31|项目实战与部署:如何实现接口部署与访问?
在企业应用当中,把项目部署到服务器上,不但能让前端访问接口,也能供更多用户使用我们的平台。
2023-07-03
有传闻说,写好总结可以升职加薪?
据传闻说:总结写的好,可以升职加薪?作为职场争渡的人来说,通过一份年终总结去挣份好前程,还是愿意去试一试的。
2022-01-15
6. Flink 中的 connector
2023-09-08
19|自托管构建:如何使用 Harbor 搭建企业级镜像仓库?
这节课,我们来学习如何使用 Harbor 来搭建企业级的镜像仓库。
2023-01-20
实时云渲染——让元宇宙从科幻走入现实
元宇宙概念持续升温,各大科技巨头纷纷入局。风口的宇宙世界,如何从科幻走入现实?
2022-08-11
在 Spark Scala/Java 应用中调用 Python 脚本,会么?
摘要:本文将介绍如何在 Spark scala 程序中调用 Python 脚本,Spark java程序调用的过程也大体相同。
2022-01-13
CDH5 部署三部曲之二:部署和设置
systemctl start mariadb && systemctl enable mariadb
2022-05-14
1. 架构重构技巧
2023-09-26
《我和我的家乡》观后感
今日在家,无意中翻到《我和我的家乡》这部电影。这部电影是2020年国庆档上映的一部由各路巨星联袂出演的大片,想来一直只闻其名却不见其片,于是便有了以下的文字以记录观后之感。
2021-12-04
推荐阅读
【YashanDB 知识库】用 yasldr 配置 Bulkload 模式作单线程迁移 300G 的业务数据到分布式数据库,迁移任务频繁出错
2024-12-17
【我和 openGauss 的故事】openGauss 3.1.1 企业版主备集群升级至 5.0.0 操作指南
2023-08-12
模拟面试|NoSQL 面试思路一图懂
2023-09-29
2023-06-22:一所学校里有一些班级,每个班级里有一些学生,现在每个班都会进行一场期末考试 给你一个二维数组 classes ,其中 classes[i] = [passi, totali] 表
2023-06-22
27.Sentinel 手动设置限流、降级案例搭建
2023-09-29
47. 动态图表原理与制作技巧初探
2023-10-17
第一财经《导师带回血三期必中》MBA 智库百科
2023-09-04
电子书

大厂实战PPT下载
换一换 
张磊 | OPPO 云服务中心架构师
郭忆 | 网易 技术专家,网易数帆大数据产品技术负责人
成超 | B 站 多媒体实验室算法负责人
评论