我有一个 python 脚本,它将检查队列并对每个项目执行操作:
# checkqueue.py
while True:
check_queue()
do_something()
如何编写一个 bash 脚本来检查它是否正在运行,如果没有,则启动它。大致如下的伪代码(或者它应该做类似 ps | grep
的事情?):
# keepalivescript.sh
if processidfile exists:
if processid is running:
exit, all ok
run checkqueue.py
write processid to processidfile
我将从 crontab 中调用它:
# crontab
*/5 * * * * /path/to/keepalivescript.sh
避免使用 PID 文件、crons 或任何其他试图评估不是其子进程的进程。
在 UNIX 中,您只能等待您的孩子,这是有充分理由的。任何试图解决这个问题的方法(ps 解析、pgrep、存储 PID,...)都是有缺陷的,并且存在漏洞。拒绝吧。
相反,您需要将监控您的进程的进程作为该进程的父进程。这是什么意思?这意味着只有启动你的进程的进程才能可靠地等待它结束。在 bash 中,这绝对是微不足道的。
until myserver; do
echo "Server 'myserver' crashed with exit code $?. Respawning.." >&2
sleep 1
done
上面的 bash 代码在 until
循环中运行 myserver
。第一行开始 myserver
并等待它结束。结束时,until
检查其退出状态。如果退出状态为 0
,则表示它正常结束(这意味着您要求它以某种方式关闭,并且它成功地关闭了)。在这种情况下,我们不想重新启动它(我们只是要求它关闭!)。如果退出状态为 not 0
,until
将运行循环体,它会在 STDERR 上发出错误消息并重新启动循环(回到第 1 行)1 秒后< /em>。
我们为什么要等一秒钟?因为如果 myserver
的启动顺序有问题并且它立即崩溃,您将有一个非常密集的循环,不断地重新启动并在您的手上崩溃。 sleep 1
消除了压力。
现在您需要做的就是启动这个 bash 脚本(可能是异步的),它会监控 myserver
并在必要时重新启动它。如果您想在启动时启动监视器(使服务器“存活”重新启动),您可以使用 @reboot
规则在用户的 cron(1) 中安排它。使用 crontab
打开您的 cron 规则:
crontab -e
然后添加一个规则来启动你的监控脚本:
@reboot /usr/local/bin/myservermonitor
或者;查看 inittab(5) 和 /etc/inittab。您可以在其中添加一行以使 myserver
从某个初始化级别开始并自动重生。
编辑。
让我添加一些关于为什么不使用 PID 文件的信息。虽然它们很受欢迎;他们也有很大的缺陷,你没有理由不以正确的方式去做。
考虑一下:
PID 回收(杀死错误的进程): /etc/init.d/foo start: 启动 foo,将 foo 的 PID 写入 /var/run/foo.pid 稍后: foo 莫名其妙地死掉了。过了一会儿:任何启动的随机进程(称为 bar)都采用随机 PID,想象一下它采用 foo 的旧 PID。你注意到 foo 不见了:/etc/init.d/foo/restart 读取 /var/run/foo.pid,检查它是否还活着,找到 bar,认为它是 foo,杀死它,开始一个新的 foo。 PID 文件过时。您需要过于复杂(或者我应该说是非平凡的)逻辑来检查 PID 文件是否过时,并且任何此类逻辑再次容易受到 1 的影响。如果您甚至没有写访问权限或处于只读环境?这是毫无意义的过度复杂化;看看我上面的例子是多么简单。完全没有必要把它复杂化。
另请参阅:Are PID-files still flawed when doing it 'right'?
顺便一提; 比 PID 文件更糟糕的是解析 ps
!永远不要这样做。
ps 很不便携。虽然您几乎可以在每个 UNIX 系统上找到它;如果您想要非标准输出,它的参数会有很大差异。标准输出仅供人类使用,不能用于脚本解析!解析 ps 会导致很多误报。拿ps aux | grep PID 示例,现在想象有人以某处的数字作为参数启动一个进程,该参数恰好与您盯着守护程序使用的 PID 相同!想象一下,两个人开始一个 X 会话,而你正在寻找 X 来杀死你的会话。这只是各种各样的坏事。
如果您不想自己管理流程;有一些非常好的系统可以作为您流程的监控器。例如,查看 runit。
查看监视器 (http://mmonit.com/monit/)。它处理脚本的启动、停止和重新启动,并且可以在必要时进行健康检查和重新启动。
或者做一个简单的脚本:
while true
do
/your/script
sleep 1
done
最简单的方法是在文件中使用flock。在 Python 脚本中你会做
lf = open('/tmp/script.lock','w')
if(fcntl.flock(lf, fcntl.LOCK_EX|fcntl.LOCK_NB) != 0):
sys.exit('other instance already running')
lf.write('%d\n'%os.getpid())
lf.flush()
在 shell 中,您实际上可以测试它是否正在运行:
if [ `flock -xn /tmp/script.lock -c 'echo 1'` ]; then
echo 'it's not running'
restart.
else
echo -n 'it's already running with PID '
cat /tmp/script.lock
fi
但是当然您不必测试,因为如果它已经在运行并且您重新启动它,它会以 'other instance already running'
退出
当进程终止时,它的所有文件描述符都将关闭,并且所有锁都会自动删除。
flock
有很多更好的方法……事实上,手册页明确地演示了如何使用! exec {lock_fd}>/tmp/script.lock; flock -x "$lock_fd"
是相当于您的 Python 的 bash,并保持锁定状态(因此,如果您随后执行进程,锁定将一直保持到该进程退出)。
flock
是正确的方法,但您的脚本是错误的。您需要在 crontab 中设置的唯一命令是:flock -n /tmp/script.lock -c '/path/to/my/script.py'
排队:
while true; do <your-bash-snippet> && break; done
例如#1
while true; do openconnect x.x.x.x:xxxx && break; done
例如#2
while true; do docker logs -f container-name; sleep 2; done
您应该使用 monit,这是一个标准的 unix 工具,可以监控系统上的不同事物并做出相应的反应。
来自文档:http://mmonit.com/monit/documentation/monit.html#pid_testing
check process checkqueue.py with pidfile /var/run/checkqueue.pid if changed pid then exec "checkqueue_restart.sh"
您还可以将 monit 配置为在重启时向您发送电子邮件。
if ! test -f $PIDFILE || ! psgrep `cat $PIDFILE`; then
restart_process
# Write PIDFILE
echo $! >$PIDFILE
fi
ps ax|grep ...
功能相同的小应用程序。您可以安装它或为此编写一个函数: function psgrep() {ps ax|grep -v grep|grep -q "$1"}
watch "yourcommand"
如果/当它停止时(延迟 2 秒后),它将重新启动该过程。
watch -n 0.1 "yourcommand"
在 0.1 秒后重新启动它而不是默认的 2 秒
watch -e "yourcommand"
如果程序出现错误退出,则停止重新启动。
优点:
内置命令
一条线
易于使用和记忆。
缺点:
仅在完成后在屏幕上显示命令的结果
-n 5
它将在最后一个停止后 5 秒再次运行该命令。您可以使用 watch -n 5 "sleep 5"
对其进行测试,并查看它每 10 秒更新一次。
我不确定它在操作系统之间的可移植性如何,但您可以检查您的系统是否包含“run-one”命令,即“man run-one”。具体来说,这组命令包括“run-one-constantly”,这似乎正是需要的。
从手册页:
不断运行命令 [ARGS]
注意:显然这可以从你的脚本中调用,但它也完全不需要脚本。
我在众多服务器上使用了以下脚本并取得了巨大成功:
pid=`jps -v | grep $INSTALLATION | awk '{print $1}'`
echo $INSTALLATION found at PID $pid
while [ -e /proc/$pid ]; do sleep 0.1; done
笔记:
它正在寻找一个 java 进程,所以我可以使用 jps,这在分布之间比 ps 更加一致
$INSTALLATION 包含足够多的进程路径,这是完全明确的
在等待进程死亡时使用睡眠,避免占用资源:)
该脚本实际上用于关闭正在运行的 tomcat 实例,我想在命令行中关闭(并等待)它,因此将它作为子进程启动根本不适合我。
grep | awk
仍然是 antipattern - 您希望 awk "/$INSTALLATION/ { print \$1 }"
将无用的 grep
合并到 awk 脚本中,它可以很好地通过正则表达式本身找到行,非常感谢。
我将它用于我的 npm 进程
#!/bin/bash
for (( ; ; ))
do
date +"%T"
echo Start Process
cd /toFolder
sudo process
date +"%T"
echo Crash
sleep 1
done
while true; do myprocess; done
的情况下执行上述循环,但请注意,现在无法停止进程。trap 'kill $(jobs -p)' EXIT; until myserver & wait; do sleep 1; done