概述
pod已经被删除,并且卡在Terminated状态较长时间,可能是因为:
- pod含有预期有关联的finalizer并且没有完成
- pod没有相应终止信号
排查手册
这个手册用于排查pod已经被删除,但长时间卡在Terminate状态,或者长于自己期望的时间。
当运行命令kubect get pods
,你可以看到关于pod的输出:
NAME READY STATUS RESTARTS AGE
nginx-7ef9efa7cd-qasd2 1/1 Terminating 0 1h
初始步骤概述
1.收集信息
2.检查finalizers
3.检查节点状态
4.强制删除
详细步骤
1)收集信息
kubectl get pod -n [NAMESPACE] -p [POD_NAME] -o yaml
2)检查finalizers
首先检查一下是否有finalizers,如果有可能是无法完成的根本原因。
获取pod配置:
kubectl get pod -n [NAMESPACE] -p [POD_NAME] -o yaml > /tmp/runbooks_pod_configuration.txt
并且检查metadata
下面有finalizers
,如果有则跳到 方案A)。
3)检查节点的状态信息
pod可能运行在因为某种原因发生故障的节点。
如果从/tmp/runbooks_pod_configuration.txt
文件里面所指定的节点上所有的pod都卡在Terminated状态,那么极有可能是因为node节点故障导致的,可以通过运行命令检查:
kubectl get node [nodename]
4)删除pod
由于没有想用终止信号,pod可能不会终止,具体原因可能取决于程序的具体情况,常见原因可能包含:
- 用户控件代码紧密循环,不允许出现中断信号。
- 运行程序维护过程,例如:垃圾回收
这种情况可以跳转到 方案B
5)重启kubelet
如果没有其他效果,可以尝试在pod所在的节点上重启kubelet,查看 方案C
解决方案
A) 删除finalizer
B) 强制删除pod
C) 重启kubelet
解决方案详细信息
A) 删除finalizers
删除pod的finalizers,运行命令:
kubectl patch pod [POD_NAME] -p '{"metadata":{"finalizers":null}}'
B) 强制删除pod
请注意,这是解决方法不是解决方案,请谨慎行事确保问题不会进一步恶化。另外请参与Statefulset有关的详细信息。
强制删除运行命令:
kubectl delete pod --grace-period=0 --force --namespace [NAMESPACE] [POD_NAME]
如果不生效,请重新参照排查手册,检查一下解决思路。
C) 重启kubelet
如果可以,SSH登陆到节点上重启kubelet进程,重启之前可以检查kubelet的日志是否有异常信息。
检查是否解决
如果kubectl get pod
没有显示pod存在那么问题就得到了解决:
kubectl get pod
进一步步骤
如果问题进一步出现,你可能需要:
- 检查终结器是否仍然需要完成
- 找到根本原因
检查终结器是否仍然需要完成
根据终结器需要完成的工作有所不同。
终结器未完成的常见情况包括
- Volume
2)确定根本原因
这将根据终结器的操作有所不同,并且需要特定的上下文知识。
可以检查kubelet的日志,可能会包含一些有用的信息。
更多信息
Finalizers
Container Lifecycle Hooks
Termination of Pods
Unofficial Kubernetes Pod Termination
Kubelet logs
原文:https://containersolutions.github.io/runbooks/posts/kubernetes/pod-stuck-in-terminating-state/#detailed-step-2