nagios的nrpe插件可以实现监控“本地”服务器的状态,但是如果注意不当还是会出现问题。比如自己编写一个自定义脚本,在远程服务器本地执行监控脚本显示服务状态正常,但是在nagios服务器调用check_nrpe插件执行时却出现问题。即出现利用nrpe监控远程服务状态本地和远程执行结果不一致的情况。
下面是一个简单的监控脚本例子。
#!/bin/bash
#define status
STATE_OK=0
STATE_WARNING=1
STATE_CRITICAL=2
sms_home=/home/appadmin/sms
cd $sms_home
a=`ps -ef |grep -v grep |grep -c smsserver`
if [ $a -eq 0 ];then
echo "CRITICAL - SMS service is not running!"
exit $STATE_CRITICAL
fi
s1=`tail -n 10 $sms_home/sms.log |grep -c ERROR`
#modem status
m_cnt=0
err=0
for modem in `grep ^[a-z] SmsServer.conf |grep "gateway.*" |cut -d, -f1|awk -F '=' '{print $NF}'`
do
m=`grep "GTW: $modem: Gateway status" sms.log.test |sed -n '$p'|awk '{print $NF}'`
if [ "$m" != "STARTED" ];then
let err=$err+1
fi
let m_cnt=$m_cnt+1
done
case $err in
$m_cnt)
echo "CRITICAL - All gateway's status is error!"
exit $STATE_CRITICAL
;;
1 | 2 | 3 | 4)
echo "WARNING - There are $err modems running error!"
;;
*)
if [ $s1 -ne 0 ];then
echo "CRITICAL - SMS service is running error!"
exit $STATE_CRITICAL
else
echo "OK - SMS service is Ok!"
exit $STATE_OK
fi
;;
esac
我在远程服务器运行这个脚本的时候提示“WARNING – There are 2 modems running error!”,但是在nagios所在服务器运行check_nrpe的时候却不一样。
root@ubuntu:~# /usr/local/nagios/libexec/check_nrpe -H 192.168.188.105 -c check_sms
CRITICAL - All gateway's status is error!
经过排查,发现远程执行的时候$err等这些参数的值一直是0。
这里我在配置的时候就忽略了一个点。因为nagios和nrpe执行的时候使用的用户和组都是nagios,而远程本地测试的时候却是root。在远程本地使用nagios用户去执行这个脚本的时候提示没有权限读取/home/appadmin/sms目录。这个就是利用nrpe监控远程服务本地和远程状态不一致问题的原因。修改权限后监控一切正常。
正文完
微信搜一搜“奇悦电脑科技”或扫描二维码关注我们


