1. 首页
  2. 系统运维
  3. Nagios

nagios利用nrpe监控远程服务状态不一致问题

nagios的nrpe插件可以实现监控“本地”服务器的状态,但是如果注意不当还是会出现问题。比如自己编写一个自定义脚本,在远程服务器本地执行监控脚本显示服务状态正常,但是在nagios服务器调用check_nrpe插件执行时却出现问题。即出现利用nrpe监控远程服务状态本地和远程执行结果不一致的情况。

下面是一个简单的监控脚本例子。

#!/bin/bash

#define status
STATE_OK=0
STATE_WARNING=1
STATE_CRITICAL=2

sms_home=/home/appadmin/sms
cd $sms_home

a=`ps -ef |grep -v grep |grep -c smsserver`
if [ $a -eq 0 ];then
        echo "CRITICAL - SMS service is not running!"
        exit $STATE_CRITICAL
fi
s1=`tail -n 10 $sms_home/sms.log |grep -c ERROR`

#modem status
m_cnt=0
err=0

for modem in `grep ^[a-z] SmsServer.conf |grep "gateway.*" |cut -d, -f1|awk -F '=' '{print $NF}'`
do
        m=`grep "GTW: $modem: Gateway status" sms.log.test |sed -n '$p'|awk '{print $NF}'`
        if [ "$m" != "STARTED" ];then
                let err=$err+1
        fi
        let m_cnt=$m_cnt+1
done

case $err in

$m_cnt)
        echo "CRITICAL - All gateway's status is error!" 
        exit $STATE_CRITICAL
        ;;
1 | 2 | 3 | 4)
        echo "WARNING - There are $err modems running error!"
        ;;
*)
        if [ $s1 -ne 0 ];then
                echo "CRITICAL - SMS service is running error!"
                exit $STATE_CRITICAL
        else
                echo "OK - SMS service is Ok!"
                exit $STATE_OK
        fi
        ;;
esac

我在远程服务器运行这个脚本的时候提示“WARNING – There are 2 modems running error!”,但是在nagios所在服务器运行check_nrpe的时候却不一样。

root@ubuntu:~# /usr/local/nagios/libexec/check_nrpe -H 192.168.188.105 -c check_sms
CRITICAL - All gateway's status is error!

经过排查,发现远程执行的时候$err等这些参数的值一直是0。

这里我在配置的时候就忽略了一个点。因为nagios和nrpe执行的时候使用的用户和组都是nagios,而远程本地测试的时候却是root。在远程本地使用nagios用户去执行这个脚本的时候提示没有权限读取/home/appadmin/sms目录。这个就是利用nrpe监控远程服务本地和远程状态不一致问题的原因。修改权限后监控一切正常。

联系我们

0574-55011290

QQ:248687950

邮件:admin@nbhao.org

工作时间:周一至周五,9:00-18:00,节假日休息

QR code