Kubernetes 集群日常操作
本页说明集群创建完成后,用户通常如何在网页控制台里查看状态、巡检资源、定位问题和执行删除操作。
Kubernetes 集群日常操作
本页说明集群创建完成后,用户通常如何在网页控制台里查看状态、巡检资源、定位问题和执行删除操作。
列表页的日常用法
Kubernetes 列表页适合做三件事:
- 快速看集群是否正常。
- 进入具体集群详情。
- 批量选择后删除不再需要的集群。
建议先看哪几列
- 名称:进入详情页的主入口。
- 状态:判断是运行中、创建中、失败还是删除中。
- 版本:确认平台版本是否符合预期。
- 控制平面与工作节点数量:判断规模是否正确。
- 健康度:快速看节点是否大面积异常。
进入集群后先看什么
总览页
建议先确认:
- 集群是否为可用状态。
- 节点数量是否齐全。
- Pod 总量是否异常。
- CPU、内存、磁盘的整体使用情况是否已经偏高。
节点页
适合排查:
- 某个节点是否未就绪。
- 某类角色节点是否不足。
- 是否有节点资源压力过高。
如果需要维护节点,可关注平台是否开放了 cordon、uncordon 之类的动作。
工作负载页
适合查看:
- Deployment。
- StatefulSet。
- DaemonSet。
- Job 与 CronJob。
- Pod 实例状态。
当业务异常时,建议先定位异常工作负载,再回头检查节点和网络。
网络页
通常可查看:
- Service。
- Gateway。
- Network Policy。
如果服务无法对外访问,建议按这个顺序排查:
- Service 是否已正确暴露。
- Gateway 是否已创建。
- 网关网络是否正确。
- 安全组是否已放通必需端口。
存储页
适合检查:
- PVC 是否已绑定。
- StorageClass 是否符合业务预期。
对于数据库、有状态服务或需要持久卷的应用,部署前后都建议检查一次。
配置与权限页
常见用于查看:
- Namespace。
- ConfigMap。
- Secret。
- ServiceAccount。
- Role 与 Binding。
如果应用配置未生效,或访问控制异常,可以从这里开始核对对象是否存在。
刷新与重新确认状态
当您刚做完创建、变更或删除操作时,列表页信息可能不会立即变化。此时建议:
- 点击列表页刷新。
- 再次确认状态是否变化。
- 若仍异常,结合订单、通知和详情页继续排查。
删除集群
- 回到 Kubernetes 列表页。
- 勾选目标集群。
- 点击删除。
- 在确认窗口中再次确认。
删除后,状态通常会先显示为 Deleting。在删除流程完成前,条目可能还会继续留在列表里。
删除前确认事项
- 删除集群是不可逆操作。所有节点上的数据、PVC 中的数据以及集群配置都会被永久删除。
- 如果集群中运行着重要的数据库或有状态应用,请先手动备份数据。
- 建议先确认集群中不再有正在提供服务的应用,再执行删除。
常见排查顺序
集群创建成功但业务不可用
建议按以下顺序检查:
- 节点是否全部就绪。
- 工作负载是否正常拉起。
- Service 与网关是否正确。
- 安全组与外部网络是否已放通。
节点健康度下降
先看节点页,再回到总览确认是否是单点问题还是整体容量问题。
外部访问失败
优先排查网关、安全组和服务暴露方式,不要一开始就假设是应用本身故障。
运维注意事项
- 自动伸缩:如果集群开启了自动伸缩,平台会定期检查资源使用情况并自动添加节点。自动伸缩由定时任务驱动,不是实时响应,扩容动作可能存在几分钟的延迟。
- 按量计费:按量付费集群每小时计费一次。集群创建成功后即开始计费,即使集群中没有运行任何工作负载也会持续产生费用。如不再需要,请及时删除。
- 集群到期:按量付费集群到期后,平台会自动执行删除流程。删除前平台会通过站内通知提醒。
- 节点维护:对节点执行 Cordon 或 Drain 操作前,请确认集群中有足够的其他节点来承载被迁移的工作负载。否则可能导致服务中断。
- 安全组:对外暴露服务时,安全组规则需要放通对应的端口。如果服务无法从外部访问,优先检查安全组配置。
- kubeconfig:如需使用 kubectl 等外部工具连接集群,需要获取 kubeconfig 文件。请通过平台支持渠道获取。
状态刷新说明
- 控制台中的数据并非实时更新。执行操作后,如果状态未立即变化,请使用刷新按钮手动刷新。
- 部分操作(如创建、删除、伸缩)可能需要几分钟才能在界面上反映出来。
本文档更新于 2026-04-25 09:00