grok的基本概念
grok是logstash的filter插件,可以实现对日志信息的过滤,详细资料参考官方grok解析
它的语法结构为
%{NUMBER:duration} %{IP:client}
grok支持正则匹配,熟悉正则的话就没什么困难
自定义的grok正则,可以访问Grok Debugger来调试
默认正则可以在 $logstash/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.0.0/patterns/ 目录里面查看
基本定义在grok-patterns中,我们可以使用其中的正则,当然并不是所有的都适合nginx字段,这时就需要我们自定义正则,然后通过指定patterns_dir来调用。
利用grok分析nginx的access.log
首先我们先看下nginx的access的日志格式
log_format access '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" $http_x_forwarded_for';
grok根据access的日志格式去制定正则匹配规则,所以我们可以在$logstash/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.0.0/patterns/ 目录创建nginx_access,正则内容为以下
NGUSERNAME [a-zA-Z\.\@\-\+_%]+
METHOD (OPTIONS|GET|HEAD|POST|PUT|DELETE|TRACE|CONNECT)
NGUSER %{NGUSERNAME}
NGINXACCESS %{IPORHOST:client_ip} - %{NGUSER:remote_user} \[%{HTTPDATE:timestamp}\] "(?:%{METHOD:verb} %{NOTSPACE:request}(?: HTTP/%{NUMBER:http_version})?|%{DATA:rawrequest})" %{NUMBER:response} (?:%{NUMBER:bytes}|-) %{QS:referrer} %{QS:agent} %{NOTSPACE:http_x_forwarded_for}
利用grok分析nginx的error日志
在$logstash/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.0.0/patterns/ 目录创建nginx_error,内容为以下
ERRORDATE %{YEAR}/%{MONTHNUM}/%{MONTHDAY} %{TIME}
METHOD (OPTIONS|GET|HEAD|POST|PUT|DELETE|TRACE|CONNECT)
NGINXERROR %{ERRORDATE:timestamp} \[%{LOGLEVEL:severity}\] %{POSINT:pid}#%{NUMBER}: %{GREEDYDATA:errormessage}(?:, client: (?<remote_addr>%{IP}|%{HOSTNAME}))(?:, server: %{IPORHOST:server})(?:, request: "%{METHOD:verb} %{NOTSPACE:request}( HTTP/%{NUMBER:http_version})")?(?:, upstream: "%{NOTSPACE:upstream}",)?(?: host: "%{HOSTNAME:host_domain}")?(?:, referrer: "%{NOTSPACE:referrer}")?
配置logstash.confd的filter模块
filter {
if [filename] == "nginx_access" {
grok {
match => { "message" => "%{NGINXACCESS}" }
}
date {
match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ]
target => "@timestamp"
remove_field => "timestamp"
}
geoip {
source => "client_ip"
}
useragent {
source => "agent"
target => "useragent"
remove_field => "agent"
}
}
if [filename] == "nginx_error" {
grok {
match => { "message" => "%{NGINXERROR}" }
}
date {
match => [ "timestamp" , "yyyy/MM/dd HH:mm:ss" ]
timezone => "Asia/Shanghai"
target => "@timestamp"
remove_field => "timestamp"
}
}
}
因为error日志的timestamp未指定时区,所以需要添加timezone指定为Asia/Shanghai
geoip和useragent也属于filter的插件,用来分析ip和agent的
输出的时候也可以指定输出的模板,详细参考这个文档