nagios的nrpe插件可以实现监控“本地”服务器的状态,但是如果注意不当还是会出现问题。比如自己编写一个自定义脚本,在远程服务器本地执行监控脚本显示服务状态正常,但是在nagios服务器调用check_nrpe插件执行时却出现问题。即出现利用nrpe监控远程服务状态本地和远程执行结果不一致的情况。
下面是一个简单的监控脚本例子。
#!/bin/bash #define status STATE_OK=0 STATE_WARNING=1 STATE_CRITICAL=2 sms_home=/home/appadmin/sms cd $sms_home a=`ps -ef |grep -v grep |grep -c smsserver` if [ $a -eq 0 ];then echo "CRITICAL - SMS service is not running!" exit $STATE_CRITICAL fi s1=`tail -n 10 $sms_home/sms.log |grep -c ERROR` #modem status m_cnt=0 err=0 for modem in `grep ^[a-z] SmsServer.conf |grep "gateway.*" |cut -d, -f1|awk -F '=' '{print $NF}'` do m=`grep "GTW: $modem: Gateway status" sms.log.test |sed -n '$p'|awk '{print $NF}'` if [ "$m" != "STARTED" ];then let err=$err+1 fi let m_cnt=$m_cnt+1 done case $err in $m_cnt) echo "CRITICAL - All gateway's status is error!" exit $STATE_CRITICAL ;; 1 | 2 | 3 | 4) echo "WARNING - There are $err modems running error!" ;; *) if [ $s1 -ne 0 ];then echo "CRITICAL - SMS service is running error!" exit $STATE_CRITICAL else echo "OK - SMS service is Ok!" exit $STATE_OK fi ;; esac
我在远程服务器运行这个脚本的时候提示“WARNING – There are 2 modems running error!”,但是在nagios所在服务器运行check_nrpe的时候却不一样。
root@ubuntu:~# /usr/local/nagios/libexec/check_nrpe -H 192.168.188.105 -c check_sms
CRITICAL - All gateway's status is error!
经过排查,发现远程执行的时候$err等这些参数的值一直是0。
这里我在配置的时候就忽略了一个点。因为nagios和nrpe执行的时候使用的用户和组都是nagios,而远程本地测试的时候却是root。在远程本地使用nagios用户去执行这个脚本的时候提示没有权限读取/home/appadmin/sms目录。这个就是利用nrpe监控远程服务本地和远程状态不一致问题的原因。修改权限后监控一切正常。