速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Kubernetes 在有赞的实践

  • 2019-09-19
  • 本文字数:3048 字

    阅读完需:约 10 分钟

Kubernetes 在有赞的实践

一、背景

我们为什么选择 Kubernetes?因为 Kubernetes 几乎支持所有的容器业务类型,包括无状态应用、有状态应用、任务型和 Daemonset,Kubernetes 也逐渐成为容器编排领域不争的事实标准。同时,从资源利用率,开发测试运维和 DevOps 三方面出发,会极大的提升人和机器的效率。

二、方案

整体架构


Kubernetes 在整个系统中处于偏底层,负责容器的编排。我们开发了一套 Web 的运维平台,能够完成开发者绝大部分的日常开发操作功能,其中包括了应用发布、伸缩容、回滚、灰度蓝绿发布、CI/CD 流水线、日志和监控的查看等。

集群部署


为了实现集群的高可用,平台提供多个 IDC 部署,应用可以同时部署到不同 IDC 的 Kubernetes 集群,同时我们在一个 IDC 同时部署了两个集群,应用可以部署到同机房的两个集群,这样可以解决跨机房调用问题,也可以防止 Kubernetes 集群过大导致的调度性能问题。同时在同一个 IDC 内,集群可以选择自建和云提供商的集群,在双十一这种情况下,可以利用云的弹性,快速扩容集群来满足资源的需求。在同个 IDC 部署多个集群的出发点是,我们没有使用 Kubernetes 的 Ingress,自研了 k8s-sync 组件会在发布时自动将容器的 IP 同步到我们的统一接入中,为了避免 k8s-sync 出错,如果在一个集群中 IP 同步不一致会快速失败,而不会影响其他的集群和现有的服务。

Master 高可用


Master 节点是 Kubernetes 中最重要的部分,生产中必须要保障它的高可用。


etcd 是 Kubernetes 当中唯一带状态的服务,集群中所有的数据都保存在 etcd 中。Kubernetes 选用 etcd 作为它的后端数据存储仓库正是看重了其使用分布式架构,没有单点故障的特性。一是使用独立的 etcd 集群,使用 3 台或者 5 台服务器只运行 etcd,独立维护和升级。甚至可以使用 CoreOS 的 update-engine 和 locksmith,让服务器完全自主地完成升级。这个 etcd 集群将作为基石用于构建整个集群。 采用这项策略的主要动机是 etcd 集群的节点增减都需要显式的通知集群,保证 etcd 集群节点稳定可以更方便地用程序完成集群滚动升级,减轻维护负担


kube-apiserver 高可用


apiserver 本身是一个无状态服务,要实现其高可用相对要容易一些,前端部署了负载均衡,其他组件都通过这个负载均衡去访问 apiserver。


kube-controller-manager 与 kube-scheduler 高可用


这两项服务是 Master 节点的一部分,他们的高可用相对容易,仅需要运行多份实例即可。这些实例会通过向 apiserver 中的 Endpoint 加锁的方式来进行 leader election, 当目前拿到 leader 的实例无法正常工作时,别的实例会拿到锁,变为新的 leader。

日志

针对日志采集,在有赞主要分为两类,对于输出到 stdout 和 stderr 的日志,会使用 filebeat 进行采集,写入到 kafaka 中做后续的存储和处理。对于 Java 类应用,在虚拟机时代,就已经自研了一套日志处理方案,在容器中我们沿袭了这套方案,通过 agent 采集走。

集群监控

对于集群的监控主要分为两种,对于节点的监控,还是沿袭了虚拟机时代的方案,继续使用 open-falcon;使用 Kubernetes 后,我们使用了 cadvisor 和 kube-state-metrics,用于采集容器和 Kubernetes 中一些资源对象的数据;同时,对于 Kubernetes 中的组件,kubelet、kube-apiserver、kube-controller-manager 和 kube-scheduler,各自都暴露了 metrics 接口,吐出了自身的运行时的监控数据。这些数据都被集群的 prometheus 全部拉取,然后


展示在 Grafana 和运维平台上。

应用监控

在运维平台中,对于应用开发者来说最关心的是应用层面的监控数据。目前,我们结合 cadvisor 和 kube-state-metrics 提供了 CPU、内存、磁盘 IO、网络 IO 这四个监控项。同时,我们针对容器重启,销毁,拉取镜像失败,孤儿 Pod 等事件做了监控和报警。

服务暴露

Kubernetes 中服务的暴露是一个比较重要的问题,同时也有很多开源的方案。刚开始,我们调研了 traefik ,但是很多地方满足不了我们的需求,所以沿用了内部的接入层 yz7,为了适配 Kubernetes,自研了 k8s-syc。k8s-sync 会 watch 集群中的 endpoints,然后将 IP 同步到 yz7 中。对于 RPC 服务,由于我们内部采用了 macvlan ,这种调用和虚拟机时代保持了一致。


镜像

镜像的构建主要分 3 层,OS 层、Runtime 层和业务应用层。有赞内部每种应用类型会有严格的端口规范,每种应用类型接入容器发布时要符合端口规范。对于 Python 和 NodeJS 应用接入容器发布时比较简单,只需要在应用 repo 的根路径下添加 app.yaml 文件,这个文件定义了应用的镜像的构成,包括 OS、runtime 和 entrypoint。例如,下面是一个 Python 应用的 app.yaml 示例文件。


stack: youzanyun-centos6runtime: python-2.7entrypoint: gunicorn -c gunicorn_config.py wsgi:application
复制代码


标签

为了便于运维管理和亲和性的需求,我们给 Pod 打上了很多标签,例如:应用名称、集群名称、环境、机房、灰度蓝绿等。目前,我们还没有使用亲和性来实现更复杂的高可用,后续会基于这些标签来规划应用的亲和性和反亲和性。

Lifecycle Hooks

我们使用了 Kubernetes 的 poststart 和 prestop 的钩子。


  • 容器启动时,会调用定义的 preload 和 online 脚本,该脚本会对应用程序进行健康检查,健康检查通过后再执行 online 脚本对应用进行上线动作。

  • 容器销毁时,会调用 offline 和 stop 脚本,和启动时相反,容器销毁时会先进行下线动作然后再执行 stop 脚本。

持续交付


在有赞,CI/CD 的实现是通过项目环境来实现的。每个标准环境的部署,是部署在不同的 Kubernetes 集群中的,每个集群中通过不同的 namespace 来区分各自的环境。

多集群管理

目前我们的生产环境的集群包括了自建集群和公有云集群,其他环境也有很多套集群。为了便于进行集群管理,我们自研了集群管理平台。集群管理员可以在平台上对进行操作,包括创建集群、添加节点、维护节点、给节点打标签和查询集群及节点的水位状态。

遇到的问题

在容器化的过程中,还是碰到了不少的问题,主要有下面这些和大家分享下:


1.CPU 核数不准


我们使用了 lxcfs 进行了一些隔离,但是对于 Java 程序来说获取到的 CPU 核数还是不准的,前期我们使用了 hack 的方案,后续升级了 jdk 避免了这个问题。


2.有问题时的排查


针对发布时,应用程序发布起来出现 CrashLoopbackoff 的情况时,我们提供了调试模式发布,这时,会移除 Pod 的健康检查和 lifecycle hook,保证可以发布起来。针对线上运行时出现了问题,我们提供了隔离的功能,给 Pod 打上特殊的标签让其脱离 Deployment 的控制,同时会执行程序的下线流程,保证不再有流量进来,这样就保留了有问题时的现场,供开发人员进行现场问题排查。


3.Pod 中 Container 的依赖


通常,在 Pod 里除了业务容器还有其他的 sidecar 容器,在我们这里特殊的是,业务容器还依赖了 sidecar 容器,但是 Pod 的启动实际是无序的,所以我们目前使用了富容器,辅助程序和业务程序放在了一起,启动时控制了它们的启动次序。目前,社区里也有相应的讨论,已经在实现中。

三、未来展望

未来,我们期望能开始使用 operator 来优化和改进 Kubernetes 的使用,并使用它去优化一些应用程序的交付;希望可以开始使用 HPA 和 VPA,来实现自动化的伸缩容;实现更精细化的调度,提供集群的利用率。


本文转载自公众号有赞 coder(ID:youzan_coder)


原文链接


https://mp.weixin.qq.com/s?__biz=MzAxOTY5MDMxNA==&mid=2455759995&idx=1&sn=5c5dd3502f333f01fdfa9ee7f06f5212&chksm=8c686a5ebb1fe348698a46ef78d111d7de2b840b9d14d5801712b262ee85402ff7ad5e93f611&scene=27#wechat_redirect


2019-09-19 08:002914

评论 1 条评论

发布
用户头像
想知道前端项目是怎么容器化的
2019-09-19 16:05
回复
没有更多了
发现更多内容

用数据,简单点!奇点云2024 StartDT Day数智科技大会,直播见

奇点云

发布会 奇点云 数据云 分析云

快手闪耀VALSE2024:揭秘视频生成技术,展示文生图大模型

快手技术

学术会议 学术论文

iBarcoder for Mac(条形码生成工具) v3.15.1中文激活版

Rose

半年涨粉1000万!揭秘快意大模型在短视频互动场景中的大规模应用实践!

快手技术

短视频 机器人 #大模型

音乐弹幕?智能修音?回森K歌社区的创新玩法?(上)

快手技术

商业模式 创新 玩法

大厂程序员的一天,沉浸式体验Baidu Comate代码助手如何用于面试、代码评审……

申屠鹏会

大模型 Baidu Comate comate

IntelliJ IDEA集成Baidu Comate,商城系统支付交易功能开发实战

阿Q说代码

百度 智能推荐 comate 代码助手 智能编码

蓝易云 - Postman04-Post方法发送请求

百度搜索:蓝易云

Linux 服务器 HTTP Postman 云服务器

DashVector + ModelScope 玩转多模态检索

DashVector

数据库 AI 向量检索 大模型

加速规模化应用,火山引擎升级金融大模型服务体系

新消费日报

照片编辑新高度!Capture One,专业摄影师的首选!

Rose

GitHub天花板!清华大佬纯手码的《python背记手册》火了!

我再BUG界嘎嘎乱杀

Python 后端 软件开发 入门 零基础

基于串口通信的电子相册设计

梦笔生花

Python COF 智能屏

蓝易云 - Spring Boot常用注解大全:常用注解汇总一览

百度搜索:蓝易云

云计算 spring Linux 运维 Spring Boot

云原生多云多集群Karmada|2024开源之夏8项课题邀您共创

华为云开发者联盟

Kubernetes 云原生 华为云 华为云开发者联盟 企业号2024年5月PK榜

Win10-VMware安装CentOS7.5

vinci321

centos win10 vmware 虚拟机

开源啦,Redis跨集群实时数据同步工具

golang 数据库 微服务、 redis 底层原理

蓝易云 - Linux服务器如何修改密码

百度搜索:蓝易云

云计算 Linux 运维 服务器 云服务器

全球厂商之最,华为17篇论文入选国际数据库顶会ICDE

华为云开发者联盟

华为云 华为云GaussDB 华为云开发者联盟 华为云GeminiDB 企业号2024年5月PK榜

Dubbo 全链路监控技术实践

乘云数字DataBuff

dubbo 全链路监控

AWS Elastic Beanstalk 监控可观测最佳实践

观测云

APM AWS

提升医疗服务质量的基石:全面解析医疗数据治理

郑州埃文科技

数据治理

AAAI 2024 | 基于由粗到细的视觉表征实现的高效匹配且兼顾性能的跨模态检索

快手技术

蓝易云 - 小程序开发选择什么配置服务器

百度搜索:蓝易云

服务器 云主机 云服务器 服务器租用 VPS

为什么要迈进NGAIOps(下一代AIOps)

乘云数字DataBuff

AIOPS NGAIOps

DashVector x 通义千问大模型:打造基于专属知识的问答服务

DashVector

数据库 后端 向量检索 大模型

零成本开发!试试这6个免费的API接口平台

幂简集成

API 免费API接口 免费API 免费API接口平台

鸿蒙4.2小版本大亮点,鸿蒙5.0也不远了

FinFish

鸿蒙应用开发 小程序容器技术 鸿蒙Next 鸿蒙5.0 鸿蒙SDK

快手工程架构治理大揭秘:告别崩溃,提效神器来袭!

快手技术

架构 架构治理

Kubernetes 在有赞的实践_文化 & 方法_木鱼_InfoQ精选文章