Python 3.6.8
场景:特殊的网络场景,有多台服务器的数据需要收集和整理,其中有多个环节需进行SSH和SCP;网络和服务器都是不稳定的,这时设置超时必不可少,比如,ssh认证如果出现问题,shell命令会要求输入密码,那条线就彻底挂起了,池子就变小了;而且这种挂起的日志容易被掩埋,导致问题无法及时处理;希望代码对你有帮助
过程说明
最初使用了subprocess的getstatusoutput直接获得执行状态和结果,功能是达到了,但后续出现了两种问题,导致任务堵塞了。一个是ssh执行命令,一个是shell脚本执行时间过长,其实是有异常"假死"了。这时任务应该跳过继续进行或重试,所以需要进行超时判断,设置好超时时间。
首先我查了文档,发现getstatusoutput封装了check_output,底层是Popen都是有timeout参数的,但设置上后还是无效。查看了之前的邮件组后发现了原因,关键是如果命令创建了新的子线程,子线程是没有超时的,python不会选择kill group;因为python无法确定子线程要做什么,不能简单粗暴,交由使用者决定怎么处理。而且不同平台的支持支持也不同,python不想做这吃力不讨好的事。
那么就自力更生吧,我的目标就是只要是超时就结束并返回异常。最终有了以下的代码:
代码
import subprocess
import time
import logging
# 执行shell命令的方法
# cmd shell命令, timeout 超时:秒
# return (执行状态:int,执行结果:str,执行错误:str)
def run_cmd(cmd, timeout=None):
try:
exec_status = -1
exec_err = ""
exec_result = ""
# deprecated,无法提供超时功能
# exec_status, exec_result = subprocess.getstatusoutput(cmd)
try:
# shell=True 因为需要使用通道和字符串子命令,所以默认打开
with subprocess.Popen(cmd, shell=True, universal_newlines=True, stderr=subprocess.STDOUT,stdout=subprocess.PIPE) as process:
# 主要超时控制
if timeout:
to_count = 0
while True:
# interval sec: 5 因为还有很多long time command,超时间隔不需要太细
time.sleep(5)
to_count += 5
if to_count > timeout:
# 回归到subprocess的超时处理
process.kill()
raise subprocess.TimeoutExpired(process.args, timeout, output=None,
stderr=None)
if process.poll() is None:
continue
else:
break
try:
# 完成后获取结果
stdout, stderr = process.communicate(input)
# 此处是subprocess的异常处理,直接使用
except subprocess.TimeoutExpired:
process.kill()
stdout, stderr = process.communicate()
raise subprocess.TimeoutExpired(process.args, timeout, output=stdout,
stderr=stderr)
except:
process.kill()
process.wait()
raise
retcode = process.poll()
if retcode:
raise subprocess.CalledProcessError(retcode, process.args,
output=stdout, stderr=stderr)
data = subprocess.CompletedProcess(process.args, retcode, stdout, stderr).stdout
exec_status = 0
except subprocess.CalledProcessError as ex:
data = ex.output
exec_status = ex.returncode
if data[-1:] == '\n':
exec_result = data[:-1]
if exec_status != 0:
exec_err = exec_result
exec_result = None
return exec_status, exec_result, exec_err
# 自身封装的异常处理,为了记录和返回统一格式
except subprocess.TimeoutExpired:
logging.error("cmd:{} is timeout".format(cmd))
return -9, None, "timeout"
except BaseException as ose:
logging.error("cmd:{} error:{}".format(cmd, ose.__str__()))
return -1, None, ose.__str__()
测试代码
run_cmd("sleep 4m", 10)
run_cmd("python", 10)
run_cmd("python")