K3s 多 master 高可用部署后只有一个节点能 kubectl 的常见问题

10次阅读

多 master K3s 集群中仅首个 master 节点可正常使用 kubectl,其余节点报错是因 kubeconfig 未同步、API Server 地址未指向 VIP/LB、证书未统一、kubectl 未正确配置所致。

K3s 多 master 高可用部署后只有一个节点能 kubectl 的常见问题

部署多 master 的 K3s 高可用集群后,常出现只有第一个 master 节点能正常使用 kubectl,其余 master 节点执行命令报错(如 connection refusedcertificate is valid for ... not ... 或直接提示找不到配置),这并非集群本身故障,而是配置和环境未同步导致的典型现象。

kubeconfig 文件未同步到其他 master 节点

K3s 默认只在首个 server 节点生成完整可用的 /etc/rancher/k3s/k3s.yaml,其他 master 节点虽然运行正常,但该文件要么不存在、要么内容不完整(比如缺失 client-certificate-data 或 server 地址错误)。

  • 手动复制首个 master 的 kubeconfig 到其他 master 节点:
    sudo scp /etc/rancher/k3s/k3s.yaml user@:/etc/rancher/k3s/k3s.yaml
  • 确保目标节点上设置正确环境变量
    export KUBECONFIG=/etc/rancher/k3s/k3s.yaml
  • 或复制到用户级配置目录并修正权限:
    mkdir -p ~/.kube && sudo cp /etc/rancher/k3s/k3s.yaml ~/.kube/config && sudo chown $USER:$USER ~/.kube/config

API Server 地址未指向高可用入口(VIP 或负载均衡器)

如果各 master 节点的 kubeconfig 中 server: 字段仍写死为本机 IP(如 https://10.0.0.40:6443),那么当该节点宕机或证书不匹配时,kubectl 就会失败。高可用部署必须统一使用 VIP 或 LB 地址。

  • 编辑 kubeconfig,将 server: 行改为高可用地址,例如:
    server: https://10.0.0.41:6443(对应 keepalived VIP)或 https://k3s-lb.example.com:6443
  • 若使用 TLS SAN,需在所有 master 启动时通过 --tls-san 显式加入该 VIP 或域名,否则证书校验失败

节点间证书与身份未对齐

K3s 多 master 模式下,每个节点拥有独立的证书对。若未使用外部数据存储(如 postgresql/mysql),而是依赖内置 etcd,则所有 master 必须共用同一套 CA 和 server 证书,否则 API 认证会拒绝非首节点发起的请求。

  • 推荐方案:部署时统一指定证书路径,例如:
    --tls-cert-file /var/lib/rancher/k3s/server/tls/serving-k3s.crt --tls-key-file /var/lib/rancher/k3s/server/tls/serving-k3s.key
  • 更稳妥做法是启用外部数据库(PostgreSQL/MySQL),由其统一管理集群状态和证书上下文,避免节点间证书漂移

服务未启用 kubectl 命令别名或二进制缺失

部分 K3s 安装方式(尤其是离线包或自定义脚本)可能未自动创建 k3s kubectl 别名,或未将 kubectl 二进制软链到 /usr/local/bin

  • 检查是否可调用:
    which kubectlwhich k3s
  • 若只有 k3s 可用,直接用:
    k3s kubectl get nodes
  • 若需全局 kubectl,建立软链接:
    sudo ln -sf /usr/local/bin/k3s /usr/local/bin/kubectl
text=ZqhQzanResources