Linux日志与监控联动方案_告警触发机制说明【技巧】

14次阅读

告警未触发的根因是日志源未接入、规则不匹配或通知通道未就绪;需依次完成rsyslog+Logstash标准化接入、Kibana阈值告警配置、Elastalert复杂规则部署、shell脚本低依赖监控及prometheus指标化告警。

Linux日志与监控联动方案_告警触发机制说明【技巧】

如果您在linux系统中已部署日志采集与监控组件,但告警未能按预期触发,则可能是由于日志源未正确接入、规则匹配条件不匹配或通知通道未就绪。以下是实现日志与监控联动并确保告警可靠触发的具体操作步骤:

一、基于rsyslog+Logstash的日志标准化接入

该方法通过在日志源头统一格式,使后续监控系统能准确识别结构化字段,避免因日志格式混乱导致规则失效。需确保每条日志携带hostname、timestamp、level、message等关键字段。

1、编辑/etc/rsyslog.conf,在文件末尾添加模板定义:
template(name=”json-template” type=”list”) {
Property(name=”timestamp” dateformat=”rfc3339″)
constant(value=”, “hostname”:””)
property(name=”hostname”)
constant(value=””, “level”:””)
property(name=”syslogseverity-text”)
constant(value=””, “message”:””)
property(name=”msg” format=”json“)
constant(value=””}n”)
}

2、配置日志转发规则,将本地日志以jsON格式发送至Logstash监听端口
*.* @127.0.0.1:5044;json-template

3、重启rsyslog服务:
systemctl restart rsyslog

二、elasticsearch索引中配置告警触发规则(Kibana内置)

利用Kibana的Alerting功能,直接在Elasticsearch索引数据上设置条件型告警,无需额外部署中间件,适用于已有elk环境。

1、登录Kibana,进入Stack Management → Alerts and Actions → Create alert

2、选择Rule type为“Log threshold”

3、在Rule definition中设置:
Index pattern:log-*

4、设置触发条件:
Count of documents > 5
Time range:Last 10 minutes
Filter:level: “Error” or message: “*Connection refused*” or message: “*timeout*”

5、配置Actions,选择Email connector并填写收件人地址

三、使用ElastAlert实现独立规则引擎告警

ElastAlert作为轻量级外部告警工具,可脱离Kibana运行,支持复杂逻辑判断(如频率统计、异常突增、黑白名单),适合对告警精度要求较高的场景。

1、安装ElastAlert:
pip3 install elastalert

2、初始化配置目录:
elastalert-create-index –name elastalert_status

3、编写规则文件error_rate.yaml:
name: “High ERROR rate in application logs”
type: frequency
index: log-*
num_events: 15
timeframe:
minutes: 5
filter:
– term:
level: “ERROR”
alert:
– “email”
email:
– “admin@example.com

4、启动ElastAlert服务:
elastalert –config config.yaml –rule error_rate.yaml –verbose

四、Shell脚本+tail+flock实现低依赖实时告警

适用于资源受限或不允许安装第三方组件的生产环境,通过文件锁机制防止多实例并发读取冲突,保障日志行号追踪准确性。

1、创建监控脚本monitor_log.sh,并赋予执行权限:
chmod +x monitor_log.sh

2、在脚本中定义日志路径与偏移记录文件:
LOGFILE=”/var/log/nginx/error.log”
OFFSET_FILE=”/tmp/offset_nginx_error”

3、使用flock加锁读取新增内容:
flock -x “$OFFSET_FILE” -c ‘tail -n +$(cat “$OFFSET_FILE” 2>/dev/null || echo 0) “$LOGFILE” | grep -i “failed|denied|segmentation fault” | while read line; do echo “$(date): $line” >> /var/log/alerts.log; echo “$line” | mail -s “Nginx ERROR Alert” ops@company.com; done; wc -l “$LOGFILE” | awk “{print $1}” > “$OFFSET_FILE”‘

4、将脚本加入crontab每分钟执行一次:
* * * * * /opt/scripts/monitor_log.sh

五、Prometheus+Alertmanager对接日志指标化告警

将日志关键事件转换为Prometheus指标(如error_total计数器),再由Alertmanager统一管理抑制、分组与通知路由,适用于已构建云原生监控体系的环境。

1、部署file_exporter或custom exporter,解析日志并暴露/metrics接口,例如:
error_total{app=”nginx”,level=”crit”} 3

2、在Prometheus配置中添加scrape job:
– job_name: ‘log-metrics’
static_configs:
– targets: [‘192.168.1.100:9115’]

3、在Alertmanager配置中定义路由规则:
route:
receiver: ’email-notifications’
group_by: [‘alertname’, ‘app’]
group_wait: 30s

4、编写Prometheus告警规则log_alerts.yml:
– alert: HighErrorRate
expr: rate(error_total{level=”crit”}[5m]) > 0.1
for: 2m
labels:
severity: critical
annotations:
summary: “Critical errors in {{ $labels.app }}”

text=ZqhQzanResources