写点什么

Rancher 2.0 部署过程中常见问题分析与解决

  • 2020-04-15
  • 本文字数:2473 字

    阅读完需:约 8 分钟

Rancher 2.0部署过程中常见问题分析与解决

本文是 Rancher 2.0 部署与使用过程中常见的问题及其解决方法,多数问题整理收集自 Rancher 官方技术交流群内用户的提问与反馈。欢迎扫描文末二维码,添加 Rancher 小助手为好友,加群获得更多技术支持。

本文主要内容为 :

1、部署 Rancher 2.0 的环境需求


  • 推荐使用的操作系统

  • 推荐的硬件配置

  • 支持的 docker 版本

  • 防火墙需要允许通过的端口


2、部署过程中的常见问题及排查思路


  • 环境信息残留

  • openssh 版本过低问题

  • nodeport 端口只有一台机器能访问

  • 部署使用 calico 网络部署环境失败问题

  • 部署时主机 not found 问题

  • web 页面 kubectl 闪退问题

  • 非 worker 节点仍然被调度 pod 问题

  • it is a not share mount 问题

  • networkredy=false 问题

  • 集群 unavailable

环境需求

推荐使用的操作系统

  • Ubuntu 16.04 (64-bit)

  • Red Hat Enterprise Linux 7.5 (64-bit)

  • RancherOS 1.3.0 (64-bit)

推荐的硬件配置

支持的 docker 版本

  • 1.12.6

  • 1.13.1

  • 17.03.02

防火墙请允许通过已下端口

ProtocolPort rangePurpose
tcp22ssh server
tcp80Rancher Server/ingress
tcp443Rancher Server/ingress
tcp6443kubernetes api server
tcp2379-2380etcd server client api
tcp10250-10256kubernetes components
tcp30000-32767nodeport services
udp8472canal

常见问题与排查思路

环境信息残留

目前部署中,大部分问题都是因为由于部署环境的操作系统,或多次部署,升级后残留的的信息造成的。


部署前或部署时,请使用以下命令将环境的各类信息清理干净:


df -h|grep kubelet |awk -F % '{print $2}'|xargs umount rm /var/lib/kubelet/* -rfrm /etc/kubernetes/* -rfrm /var/lib/rancher/* -rfrm /var/lib/etcd/* -rfrm /var/lib/cni/* -rfiptables -F && iptables -t nat –Fip link del flannel.1docker ps -a|awk '{print $1}'|xargs docker rm -fdocker volume ls|awk '{print $2}'|xargs docker volume rm
复制代码

openssh 版本过低问题

centos 或 rhel 系统并且版本低于 7.4 的,因为默认的 openssh 和 openssl 和红帽系 ssh 默认将 AllowTcpForwarding 关闭了,rke 部署时会出现如下问题:



参考 issue:


https://github.com/rancher/rke/issues/93


需要您进行以下操作:


  1. 确保您的 openssh 版本大于等于 7.x

  2. 修改 sshd 配置打开重启 sshd

  3. 默认 centos 和 rhel 不能使用 root 用户进行 ssh tunnel,所以需要使用一个普通用户

  4. 并将这个用户加入 docker 这个 Group,useradd –G docker yourusername

nodeport 端口只有一台机器能访问

只能访问一台宿主机的 nodeport,并且还是 pod 所在那台机器,出现这种问题很大原因是因为跨集群网络有问题,或本地防火墙问题。排查思路如下:


1、在宿主机本机telnet localhost:nodeort看看是否能通,本机能通,在集群内互相 telnet 测试,如果不能通根部署环境网络有很大关系,建议联系网络管理员进行排查。


如果本机 telnet 也不能通,进行如下测试。


2、首先我们需要或取对应的 pod 信息



比如我这个test-6b4cdf4ccb-7pzt6在rancher-kf-worker01节点上,它的 ip 为 10.42.3.23


3、先在 pod 所在的宿主机上然后在另外几个节点去 ping 这个 ip,看看能否 ping 通,在 canal 网络模式下,请检查防火墙端口 8472/UDP 是否开放。查看每天机器上是否有尝试使用每台机器的 flannel.1 网卡,用的话,用 flannel.1 上的 ip 互相 ping,看看是否能通,因为 flannel 网络和 canal 网络是通过 flannel.1 网卡互相建立 vxlan 遂道的。建议操作在关闭防火墙的情况下测试。

部署使用 calico 网络部署环境失败问题

部署 rancher2.0 时网络类型为 calico 时,如果 cloud provider 默认不填会选用公有云的,导致部署失败,所以这里我们需要手动填写为 none。(后期会优化此项)


部署时主机 not found 问题

出现这个问题是因为宿主机的主机名不符合 kubernetes 的标准主机名要求也不符合标准的 linux 主机名,主机名内不能有下划线。


获取组件健康状态 forbidden 问题


大部分原因是因为部署多次,证书残留的导致的,解决办法,按照环境信息残留里面的方法把环境清空下,在重新添加。

web 页面 kubectl 闪退问题

这个主要根操作系统版本和浏览器的版本有关系,请使用上推荐使用操作系统中的操作系统,浏览器使用 Chrome

非 worker 节点仍然被调度 pod 问题

目前 rancher2.0 非 worker 节点,仍然会被调度 pod 过去,您可以选择手动将它们从 kube-scheduler 踢除,命令如下:


在获取节点在 kubernetes 集群的名字


打开 web 页面 kubectl



然后执行


kubectl taint node rancher-kf-control01 node-role.kubernetes.io/rancher-kf-control01="":NoSchedulekubectl taint node rancher-kf-control02 node-role.kubernetes.io/rancher-kf-control02="":NoSchedulekubectl taint node rancher-kf-control03 node-role.kubernetes.io/rancher-kf-control03="":NoSchedule
复制代码

it is a not share mount 问题

部署时遇到 share mount 问题时,报错提示如下:


FATA[0180] [workerPlane] Failed to bring up Worker Plane: Failed to start [kubelet] container on host [192.168.10.51]: Error response from daemon: linux mounts: Path /var/lib/kubelet is mounted on / but it is not a shared mount.
复制代码


这个问题原因主要是 kubelet 容器化部署,需要手动设置 docker 的 MuntFLAGS 为空


https://github.com/kubernetes/kubernetes/issues/4869#issuecomment-195696990


解决方法:


执行


mount --make-shared /


或配置docker.server


MountFlags=shared


重启docker.service

NetworkRedy=false 问题


这个问题通常是,在部署时网络组件在初始化,在配置,等待段时间就好了。或在对应节点查看 kubelet 日志的 docker logs kubelet。

集群 unavailable


通常此问题,是因为 rancher-server 根 kubernetes 中的 kube-apiserver 6443 端口连接有问题,建议检查防火墙和查看 kube-api-server 的日志。

总结 **

1、部署时能严格按照官方给出的操作系统版本和 docker 版本部署,可以避免掉很多问题。


2、多次部署,升级,环境一定要按照环境信息残留章节的命令,将环境清理干净。


3、如果遇到问题,建议 docker logs 查看 rancher-agent,rancher-server 的日志。


2020-04-15 23:041779

评论

发布
暂无评论
发现更多内容

思考:数字卫星可视化如何实现?

DevOps和数字孪生

仿真建模 数字卫星

大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应用| 社区征文

汀丶人工智能

人工智能 大语言模型 LLM模型 年中技术盘点 思维链

如何看待互联网大厂加班文化?

程序员小毕

程序员 互联网 后端 架构师 java面试

跟着核心开发者聊聊大模型应用、框架开源那些事儿

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

多云管理平台有哪些?大家推荐哪家好用?

行云管家

云计算 多云 云管理 云管

网络带宽利用率不够?这些大数据传输解决方案来帮你

镭速

数据传输 大数据传输

柏睿数据作为湖仓一体数据平台代表厂商入选IDC报告

新消费日报

openGauss数据库源码解析系列文章——AI技术(二)

daydayup

opengauss

openGauss资源池化开发者入门指南

daydayup

opengauss

浅析本地缓存技术-Guava Cache | 京东物流技术团队

京东科技开发者

Java 缓存 Guava Cache Guava 企业号 7 月 PK 榜

24款数据可视化工具介绍

2D3D前端可视化开发

数据分析 web前端 数据可视化工具 可视化看板 数据可视化软件

【航遥 × ModelWhale】AI for Science 科研范式改革

ModelWhale

人工智能 云计算 算力 遥感 地球科学

监控系统 Prometheus 的原理 | 社区征文

悟空聊架构

运维 监控 Prometheus 悟空聊架构 年中技术盘点

电商企业需要堡垒机吗?采购堡垒机选择哪家好?

行云管家

网络安全 信息安全 电商 堡垒机 等级保护

18款iPad绘画软件推荐!iPad必备生产力工具。

彭宏豪95

ipad 效率工具 苹果 绘图软件 在线绘图

什么是 JSON:一个简洁易懂的入门指南

Apifox

Java json 程序员 开发 Postman

极客时间架构实战营模块一作业

德拉古蒂洛维奇

#架构实战营

社区征文 | 记一次“雪花算法”造成的生产事故的排查记录

悟空聊架构

架构 雪花算法 生产事故 悟空聊架构 年中技术盘点

多种应用场景下的大数据传输解决方案,让企业数据高效同步

镭速

大数据传输

浅议实时操作系统RTOS

DevOps和数字孪生

RTOS 实时操作系统

openGauss DBMind上的多指标关联性分析介绍

daydayup

opengauss

订单逆向履约系统的建模与PaaS化落地实践 | 京东云技术团队

京东科技开发者

领域建模 企业号 7 月 PK 榜 订单逆向履约 快退

百亿规模京东实时浏览记录系统的设计与实现 | 京东云技术团队

京东科技开发者

数据 离线 企业号 7 月 PK 榜 浏览记录

这些大数据传输解决方案保证了企业快速传输和数据可靠性

镭速

高速传输 大数据传输 快速文件传输

基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等

汀丶人工智能

人工智能 自然语言处理 知识图谱

m7s Console架构解析

不卡科技

vite 流媒体 控制台 Vue 3 #go

中小企业建设数字化工厂,选择集成老路还是整体重构?

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Ubuntu 20.04系统编译安装Memcached教程。

百度搜索:蓝易云

memcached 云计算 Linux ubuntu 运维

Ubuntu 20.04系统编译安装Redis教程。

百度搜索:蓝易云

redis 云计算 Linux ubuntu 运维

Rancher 2.0部署过程中常见问题分析与解决_文化 & 方法_Rancher_InfoQ精选文章