有时候，部署一套k8s集群相对简单和轻松，但是在集群维护过程中，往往需要遵循一些规则和流程，否则可能会出现不可预知的故障，然而，一旦建立了规则和理清了流程，这些维护工作也会变得更加简单和流畅。

文章目录

背景

在k8s集群的维护工作中，我们难免会遇到多节点维护的场景，如规格升级、集群迁移等，通过直接排空节点的操作将变得繁琐，且有风险，容易出现服务中断、集群抖动等情况，那么如何在多节点维护（下线）时保障应用的可用性及集群的稳定性将至关重要，接下来为大家分享多节点维护如何做到安全排空的方法。

维护流程及问题

首先，我们先看一下简单的维护流程，以及在多节点维护场景中可能出现的问题。

操作流程：

将节点设置为不可调度，阻止新的Pods调度到准备维护的节点上（k8s-node-1是示例节点名称，可通过kubectl get nodes进行查看）
```
kubectl cordon k8s-node-1
```
节点排空，驱逐节点上的Pods
```
kubectl drain k8s-node-1 --ignore-daemonsets
```
参数说明：
- --ignore-daemonsets: 不驱逐节点上的deamonset容器，这个参数是常用的
- --delete-emptydir-data: 当Pods被驱逐时，如果使用了emptyDir临时存储，数据也将被删除，可按需使用

多节点场景套用上述流程可能面临的问题：

服务中断，如某个应用有2个副本，但同时被驱逐；或者其中一个副本未正常启动，另一个副本又被驱逐，导致服务不可用。
kube-apiserver和etcd负荷过大，在短时间内触发多节点的Pods驱逐将会造成集群压力，可能引发集群抖动等风险。

解决方案

引入PDB（PodDisruptionBudget）
PDB是k8s中的一种机制，用于确保节点在进行维护时，应用的Pod副本不会被全部驱逐，从而保障应用的高可用性。所以建议将核心的应用配置上PDB，保障其最小可运行的容器数量，如下是配置的示例。

apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:
  name: zeus
  namespace: prod
spec:
  minAvailable: 1  # 保障最小可用数量为1
  selector:
    matchLabels:
      app: zeus

PDB的两个参数：

minAvailable: 指定最少必须可用的Pod数量或比例。
maxUnavailable: 指定最多可以不可用的Pod数量或比例。

PDB策略查看：

kubectl get pdb -n prod

有PDB的加持，会让多节点维护得更加安全和放心。

分批进行操作
为了减轻kube-apiserver和etcd的压力，避免造成k8s集群抖动，但是依靠人肉敲指令，数量少还好，如果数量多简直是要了运维老命，所以我们会借助脚本实现，具体如下：
这个脚本可以帮助你逐台设置不可调度和排空，你可根据实际场景调整执行的时间间隔，该脚本会将执行的结果输出到日志drain_nodes.log。

#!/bin/bash

# 节点列表，用逗号分隔
NODES_STRING="k8s-node-1,k8s-node-2,k8s-node-3"

# 将字符串转换为数组
IFS=',' read -r -a NODES <<< "$NODES_STRING"

SLEEP_INTERVAL=300  # 节点操作间隔（秒）

# 日志文件
LOG_FILE="drain_nodes.log"

# 清空日志
> $LOG_FILE

# 排空节点方法
drain_node() {
  local NODE=$1

  echo "[$(date)] Starting to process node $NODE" | tee -a $LOG_FILE

  # 将节点设置为不可调度
  if kubectl cordon $NODE; then
    echo "[$(date)] cordon node $NODE successfully" | tee -a $LOG_FILE
  else
    echo "[$(date)] Error cordon node $NODE" | tee -a $LOG_FILE
    return 1
  fi

  # 等待 3 秒以确保配置生效
  sleep 3

  # 排空节点
  if kubectl drain $NODE --ignore-daemonsets; then
    echo "[$(date)] Drained node $NODE successfully" | tee -a $LOG_FILE
    return 0
  else
    echo "[$(date)] Error draining node $NODE" | tee -a $LOG_FILE
    return 1
  fi
}

# 节点遍历
for NODE in "${NODES[@]}"; do
  if drain_node $NODE; then
    echo "[$(date)] Node $NODE processed successfully" | tee -a $LOG_FILE
  else
    echo "[$(date)] Failed to process node $NODE. Check $LOG_FILE for details." | tee -a $LOG_FILE
  fi
  sleep $SLEEP_INTERVAL
done

节点恢复后需要恢复可节点调度：

#!/bin/bash

# 定义包含节点名称的字符串变量
NODES_STRING="k8s-node-1,k8s-node-2,k8s-node-3"

# 将NODES_STRING分割成数组
IFS=',' read -r -a nodes <<< "$NODES_STRING"

# 遍历每个节点并删除特定污点
for node in "${nodes[@]}"
do
  echo "Removing taint from node: $node"
  kubectl uncordon "$node"
  if [ $? -eq 0 ]; then
    echo "Successfully uncordon from node: $node"
  else
    echo "Failed to uncordon from node: $node"
  fi
done

echo "node uncordon process completed."

k8s多节点自动安全排空

背景

维护流程及问题

解决方案

阁主

相关推荐

大佬们的评论抢沙发

女生也可以快速建出专业的网站

热门专题

分类目录

猜你喜欢

全新“一站式”建站，高质量、高售后的一条龙服务

微信抖音支付宝百度头条快手全平台打通信息流

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

切换注册登录

切换登录注册

背景

维护流程及问题

解决方案

阁主

相关推荐

大佬们的评论 抢沙发

女生也可以快速建出专业的网站

热门专题

分类目录

猜你喜欢

全新“一站式”建站，高质量、高售后的一条龙服务

微信 抖音 支付宝 百度 头条 快手全平台打通信息流

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

切换注册登录

切换登录注册

大佬们的评论抢沙发

微信抖音支付宝百度头条快手全平台打通信息流