一、环境准备
已安装 Apache Spark 2.2.0(此版本仅支持 Apache Spark 2.2.0, 其他 Spark 版本后续会兼容)
已安装 MySQL 并启动,且开启远程访问
各安装节点已经配置 ssh 免密登录
二、下载
moonbox-0.3.0-beta 下载:https://github.com/edp963/moonbox/releases/tag/0.3.0-beta
三、解压
tar -zxvf moonbox-assembly_2.11-0.3.0-beta-dist.tar.gz
四、修改配置文件
配置文件位于 conf 目录下
step 1: 修改 slaves
mv slaves.example slaves
vim slaves
将会看到如下内容:
localhost
请根据实际情况修改为需要部署 worker 节点的地址, 每行一个地址
step 2: 修改 moonbox-env.sh
mv moonbox-env.sh.example moonbox-env.sh
chmod u+x moonbox-env.sh
vim moonbox-env.sh
将会看到如下内容:
export JAVA_HOME=path/to/installed/dir
export SPARK_HOME=path/to/installed/dir
export YARN_CONF_DIR=path/to/yarn/conf/dir
export MOONBOX_SSH_OPTS="-p 22"
export MOONBOX_HOME=path/to/installed/dir
\# export MOONBOX_LOCAL_HOSTNAME=localhost
export MOONBOX_MASTER_HOST=localhost
export MOONBOX_MASTER_PORT=2551
请根据实际情况修改
step 3: 修改 moonbox-defaults.conf
mv moonbox-defaults.conf.example moonbox-defaults.conf
vim moonbox-defaults.conf
将会看到以下内容,其中:
catalog
配置元数据存储位置, 必须修改, 请根据实际情况修改
rest
配置 rest 服务, 按需修改
tcp
配置 tcp(jdbc)服务, 按需修改
local
配置 Spark Local 模式作业, 值为数组, 有多少个元素表示每个 Worker 节点启动多少个 Spark Local 模式作业。如不需要可删除。
cluster
配置 Spark yarn 模式作业, 值为数组, 有多少个元素表示每个 Worker 节点启动多少个 Spark Yarn 模式作业。如不需要可删除。
moonbox {
deploy {
catalog {
implementation = "mysql"
url = "jdbc:mysql://host:3306/moonbox?createDatabaseIfNotExist=true"
user = "root"
password = "123456"
driver = "com.mysql.jdbc.Driver"
}
rest {
enable = true
port = 9099
request.timeout = "600s"
idle.timeout= "600s"
}
tcp {
enable = true
port = 10010
}
}
mixcal {
pushdown.enable = true
column.permission.enable = true
spark.sql.cbo.enabled = true
spark.sql.constraintPropagation.enabled = false
local = [{}]
cluster = [{
spark.hadoop.yarn.resourcemanager.hostname = "master"
spark.hadoop.yarn.resourcemanager.address = "master:8032"
spark.yarn.stagingDir = "hdfs://master:8020/tmp"
spark.yarn.access.namenodes = "hdfs://master:8020"
spark.loglevel = "ERROR"
spark.cores.max = 2
spark.yarn.am.memory = "512m"
spark.yarn.am.cores = 1
spark.executor.instances = 2
spark.executor.cores = 1
spark.executor.memory = "2g"
}]
}
}
optional: 如果 HDFS 配置了高可用(HA)、或者 HDFS 配置了 kerberos、或者 YARN 配置了高可用(HA)、或者 YARN 配置了 kerberos
将 cluster 元素中相关部分改为以下配置, 请根据实际情况修改。具体值可查阅 hdfs 配置文件和 yarn 配置文件。
\#### HDFS HA ####
spark.hadoop.fs.defaultFS="hdfs://service_name"
spark.hadoop.dfs.nameservices="service_name"
spark.hadoop.dfs.ha.namenodes.service_name="xxx1,xxx2"
spark.hadoop.dfs.namenode.rpc-address.abdt.xxx1="xxx1_host:8020"
spark.hadoop.dfs.namenode.rpc-address.abdt.xxx2="xxx2_host:8020"
spark.hadoop.dfs.client.failover.proxy.provider.abdt="org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
spark.yarn.stagingDir = "hdfs://service_name/tmp"
\#### HDFS kerberos ####
dfs.namenode.kerberos.principal = ""
dfs.namenode.kerberos.keytab = ""
\#### YARN HA ####
spark.hadoop.yarn.resourcemanager.ha.enabled=true
spark.hadoop.yarn.resourcemanager.ha.rm-ids="yyy1,yyy2"
spark.hadoop.yarn.resourcemanager.hostname.rm1="yyy1_host"
spark.hadoop.yarn.resourcemanager.hostname.rm2="yyy2_ho
st"
\#### YARN kerberos ####
spark.yarn.principal = ""
spark.yarn.keytab = ""
本文转载自宜信技术学院网站。
原文链接:http://college.creditease.cn/detail/271
更多内容推荐
18|自托管构建:如何使用 Tekton 构建镜像?
这节课,我们来介绍其中一种自动构建镜像的自托管方案:使用 Tekton 来自动构建镜像。
2023-01-18
有传闻说,写好总结可以升职加薪?
据传闻说:总结写的好,可以升职加薪?作为职场争渡的人来说,通过一份年终总结去挣份好前程,还是愿意去试一试的。
2022-01-15
1. 离线数仓(一)
2023-09-08
《我和我的家乡》观后感
今日在家,无意中翻到《我和我的家乡》这部电影。这部电影是2020年国庆档上映的一部由各路巨星联袂出演的大片,想来一直只闻其名却不见其片,于是便有了以下的文字以记录观后之感。
2021-12-04
实时云渲染——让元宇宙从科幻走入现实
元宇宙概念持续升温,各大科技巨头纷纷入局。风口的宇宙世界,如何从科幻走入现实?
2022-08-11
在 Spark Scala/Java 应用中调用 Python 脚本,会么?
摘要:本文将介绍如何在 Spark scala 程序中调用 Python 脚本,Spark java程序调用的过程也大体相同。
2022-01-13
CLI 新功能之多项目启动器
大家好,我是小鑫同学。一位从事过Android开发、混合开发,现在长期从事前端开发的编程爱好者,我觉得在编程之路上最重要的是知识的分享,所谓三人行必有我师。所以我开始在社区持续输出我所了解到、学习到、工作中遇到的各种编程知识,欢迎有想法、有同感的
2022-10-12
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保 SLA?
大家知道,在生产环境的大数据集群中,在向资源管理器YARN提交作业时,我们一般会将作业提交到管理员指定的队列去执行,以利用 YARN 队列的资源隔离性确保作业能够获得足够的资源进行执行,从而确保SLA。
2022-09-22
一个三年 Java 程序员的面试总结!绝对会对你有所帮助
前言
2022-11-27
CDH5 部署三部曲之二:部署和设置
systemctl start mariadb && systemctl enable mariadb
2022-05-14
19|自托管构建:如何使用 Harbor 搭建企业级镜像仓库?
这节课,我们来学习如何使用 Harbor 来搭建企业级的镜像仓库。
2023-01-20
31|项目实战与部署:如何实现接口部署与访问?
在企业应用当中,把项目部署到服务器上,不但能让前端访问接口,也能供更多用户使用我们的平台。
2023-07-03
1. 架构重构技巧
2023-09-26
centos7 的启动流程(systemctl)
chkconfig sshd –list ==> ls /etc/systemd/system/*.wants/sshd.service
2022-05-05
Go 语言学习查缺补漏 ing Day4
本【Go语言查缺补漏ing】系列主要是帮助新手Gopher更好的了解Go语言的易错点、重难点。
2021-12-07
袭卷面试大厂!秋招最全 Java 面试八股文,堪称大厂 offer 收割机!
2022年的互联网行业竞争越来越严峻,面试也是越来越难,一直以来我都想整理一套完美的面试宝典,奈何难抽出时间,这套1000+道的Java面试手册我整理了整整1个月,上传到Git上目前star数达到了30K+
2022-08-20
Hive SQL 优化思路
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。
2021-11-09
兼容认证|青云 QKCP 与观测云完成产品兼容性互认证,携手打造云原生可观测能力
近日,青云科技QKCP 企业级容器平台与观测云顺利完成产品兼容性互认证。经过共同测试,双方产品兼容性良好,可以顺利安装、配置,且稳定运行,性能表现优异。
2022-07-20
6. Flink 中的 connector
2023-09-08
晚安吻
在我的认知里,男的都是不善于情感表达的,或者压根就是感受力很钝的。而女性相对来讲更感性,更善于情感的表达。
2021-12-21
推荐阅读
27.Sentinel 手动设置限流、降级案例搭建
2023-09-29
【YashanDB 知识库】用 yasldr 配置 Bulkload 模式作单线程迁移 300G 的业务数据到分布式数据库,迁移任务频繁出错
2024-12-17
第一财经《导师带回血三期必中》MBA 智库百科
2023-09-04
【我和 openGauss 的故事】openGauss 3.1.1 企业版主备集群升级至 5.0.0 操作指南
2023-08-12
模拟面试|NoSQL 面试思路一图懂
2023-09-29
47. 动态图表原理与制作技巧初探
2023-10-17
2023-06-22:一所学校里有一些班级,每个班级里有一些学生,现在每个班都会进行一场期末考试 给你一个二维数组 classes ,其中 classes[i] = [passi, totali] 表
2023-06-22
电子书
大厂实战PPT下载
换一换 熊军军 | 中国人寿 高级工程师
姜昕蔚 | InfoQ 研究中心研究总监、首席分析师
王良 | 平安壹钱包 用户研发部技术负责人
评论