在Kubernetes中,Pod有几个常见的状态,每个状态都代表了Pod的不同阶段或条件。本章简单描述 Pod 的七种状态,并列出排查思路以供参考,如有错误之处恳请大神指正!

  1. Pending(等待中):当Pod被创建后,它处于等待中的状态。在等待中,Kubernetes正在尝试在节点上分配资源并启动Pod。这可能涉及下载镜像、分配IP地址、执行初始化容器等操作。如果Pod一直处于等待中,可能是由于资源不足、调度问题或其他原因导致。

  2. Running(运行中):一旦Pod成功地被调度到节点上并且所有容器都已启动。

  3. Succeeded(已完成):如果Pod中的所有容器成功地执行完任务并退出,Pod将进入已完成的状态。通常见于 Job 任务。

  4. Failed(失败):如果Pod中的一个或多个容器由于某种原因失败,Pod将进入失败的状态。这可能是由于容器的退出代码非零、初始化容器失败、依赖资源不可用等原因导致。

  5. Unknown(未知):如果无法获取Pod的状态信息,Pod将被标记为未知状态。这可能是由于与API服务器的通信问题或其他异常情况导致。

  6. Terminating(终止中):当Pod被删除或终止时,它将进入终止中的状态。在这个状态下,Kubernetes会尝试停止容器并清理资源。

  7. ContainerCreating(创建容器中):当Pod的容器正在创建中时,Pod将进入创建容器中的状态。常见在容器镜像下载或初始化容器执行的过程中。

pod异常状态排查排查 Pod 状态为 Unknown

  1. 检查网络:检查集群中各个组件之间的网络连接是否正常。确保 API 服务器、调度器、控制器等关键组件之间的通信没有问题。

  2. 查看日志:尝试查看和分析与 API 服务器相关的日志,以确定是否有与 Pod 状态收集相关的错误或异常信息。

  3. 验证权限不通过:确保正在尝试获取 Pod 状态的用户具有足够的权限。有时候权限不足也可能导致获取状态失败,排查如RBAC或镜像仓库权限等。

  4. 集群节点故障:组件可能产生故障,无法获取pod状态,可以检查集群的整体健康状况,确保节点和其他关键组件都在正常运行。解决方案万能重启大法,有时候重启受影响的组件(如 kubelet、kube-proxy)短时间缓解问题,可以恢复对 Pod 状态的获取。

  5. 调度后无法满足污点容忍:如果节点下线,污点又恰巧不能容忍到其他节点,会导致pod调度失败,可能也会产生Unknown的状态。

排查 Pod 状态为 Failed

  1. 看容器退出代码:检查容器的退出代码,如果退出代码为非零,表示容器内部发生了错误,定位可以查看容器的日志。

  2. 依赖资源不可用:某些容器可能依赖于其他基础设施资源(如数据库、配置文件、权限文件、配置等),如果这些资源不可用、或密码不正确、权限不够也会导致启动失败。

  3. 初始化容器启动失败:如果 Pod 中定义了初始化容器,并且初始化容器失败,那么 Pod 也会失败。

  4. 资源限制与污点:Pod 可能无法满足定义的资源限制来运行容器。检查 Pod 的资源请求和集群的资源配额。

  5. 镜像拉取失败:如果容器使用的镜像无法从容器注册表中拉取,Pod 可能会失败。请确保镜像名称正确,并检查网络连接以确保能够访问镜像注册表。

  6. 挂载卷失败:如果 Pod 中定义了挂载的卷,如Pv Pvc、目录挂载等。并且挂载失败,容器可能会因为找不到所需的文件或目录而失败。检查挂载卷的配置和权限设置。

  7. 节点故障:如果运行 Pod 的节点发生故障或不可用,Pod 可能会失败。检查节点的健康状态。

  8. 就绪探针检测失败:在定义了就绪探针时,探针评定 Pod 内的应用启动失败从而一直重启或退出。