awk 简介
基本上来说,awk 可以从输入( 标准输入,或一个或多个文件 )中是否存在指定模式的记录( 即文本行 )。每次发现匹配时,就执行相关联的动作( 例如写入到标准输出或外部文件 )。
awk 语法
由于我们在 IBM HTTP Server 配置文件中指定了访问日志的固定格式,因此,我们可以轻易地使用 awk 解析,抽取我们需要的数据。
以下面的示例日志为例:
202.189.63.115 - - [31/Aug/2012:15:42:31 +0800] "GET / HTTP/1.1" 200 1365 "-"
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1"
$0 就是整个记录行
$1 就是访问 IP ” 202.189.63.115”
$4 就是请求时间的前半部分 “[31/Aug/2012:15:42:31”
$5 就是请求时间的后半部分 “+0800]”
以此类推……
当我们使用默认的域分割符时,我们可以从日志中解析出下面不同类型的信息:
awk '{print $1}' access.log # IP 地址 (%h)
awk '{print $2}' access.log # RFC 1413 标识 (%l)
awk '{print $3}' access.log # 用户 ID (%u)
awk '{print 5}' access.log # 日期和时间 (%t)
awk '{print $7}' access _log # URI (%>s)
awk '{print $9}' access _log # 状态码 (%>s)
awk '{print $10}' access _log # 响应大小 (%b)
我们不难发现,仅使用默认的域分隔符,不方便解析出请求行、引用页和浏览器类型等其他信息,因为这些信息之中包含不确定个数的空格。因此,我们需要把域分隔符修改为 “ ,就能够轻松读出这些信息。
awk -F" '{print $2}' access.log # 请求行 (%r)
awk -F" '{print $4}' access.log # 引用页
awk -F" '{print $6}' access.log # 浏览器
注意:这里为了避免 Unix/Linux Shell 误解 “ 为字符串开始,我们使用了反斜杠,转义了 “ 。
awk 使用
统计浏览器类型
如果我们想知道那些类型的浏览器访问过网站,并按出现的次数倒序排列,我可以使用下面的命令:
awk -F\" '{print $6}' access.log | sort | uniq -c | sort -fr
此命令行首先解析出浏览器域,然后使用管道将输出作为第一个 sort 命令的输入。第一个 sort 命令主要是为了方便 uniq 命令统计出不同浏览器出现的次数。最后一个 sort 命令将把之前的统计结果倒序排列并输出。
发现系统存在的问题
我们可以使用下面的命令行,统计服务器返回的状态码,发现系统可能存在的问题。
awk '{print $9}' access.log | sort | uniq -c | sort
有关状态码的 awk 命令示例:
查找并显示所有状态码为 404 的请求
awk '($9 ~ /404/)' access.log
统计所有状态码为 404 的请求
awk '(9,$7}' | sort
现在我们假设某个请求 ( 例如 : URI: /path/to/notfound ) 产生了大量的 404 错误,我们可以通过下面的命令找到这个请求是来自于哪一个引用页,和来自于什么浏览器。
awk -F" '(4,$6}' access.log
追查谁在盗链网站图片
系统管理员有时候会发现其他网站出于某种原因,在他们的网站上使用保存在自己网站上的图片。如果您想知道究竟是谁未经授权使用自己网站上的图片,我们可以使用下面的命令:
awk -F" '(4 !~ /^http://www.example.com/)\
{print $4}' access.log \ | sort | uniq -c | sort
参考
https://blog.csdn.net/weixin_34026484/article/details/92863078