报告生成器，格式化文本输出，常用选项：

-F：指明输入时用到的字段分隔符
-v var=value：自定义变量

介绍

基本格式：

awk [options] ‘program’ var=value file…
awk [options] -f programfile var=value file…
awk [options] 'BEGIN{ action;… } pattern{ action;… } END{ action;… }' file ...

program：pattern{action statements;..}

pattern部分决定动作语句何时触发及触发事件
action statements对数据进行处理，放在{}内指明

awk执行时，由分隔符分隔的字段（域）标记 $1,$ 2.. $n称为域标识。$ 0为所有域，注意：和shell中变量$符含义不同

文件的每一行称为记录。省略action，则默认执行 print $0 的操作

工作原理

执行BEGIN{action;… }语句块中的语句
从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕
当读至输入流末尾时，执行END{action;…}语句块

BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中

END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块

pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块

print

格式：print item1, item2, ...

要点：

逗号分隔符
输出的各item可以字符串，也可以是数值；当前记录的字段、变量或awk的表达式
如省略item，相当于print $0

示例：

awk –F: '{print}' /etc/passwd：以冒号为分隔符，打印每行
awk –F: ‘{print “root”}’ /etc/passwd：以冒号为分隔符，每行都打印root
awk –F: ‘{print $1}’ /etc/passwd：以冒号为分隔符，打印每行的第一个字段
awk –F: ‘{print $0}’ /etc/passwd：等同于awk –F: '{print}' /etc/passwd
awk –F: ‘{print $1”\t”$ 3}’ /etc/passwd：以冒号为分隔符，打印每行的1、3字段，\t表示tab，默认时空格
tail –3 /etc/fstab |awk ‘{print $2,$ 4}’：取/etc/fstab文件末尾3行，默认以空格为分隔符（连续的空格，tab都算空格），打印每行2、4字段

变量

引用内置变量和自定义变量都需要加$

内置变量

默认字段分隔符为空格，默认记录分隔符为回车

FS：输入字段分隔符，默认为空白字符

OFS：输出字段分隔符，默认为空白字符

RS：输入记录分隔符，指定输入时的换行符

ORS：输出记录分隔符，输出时用指定符号代替换行符

NF：字段数量

NR：记录号，多文件一起记录

FNR：各文件分别计数,记录号

FILENAME：当前文件名

ARGC：命令行参数的个数

ARGV：数组，保存的是命令行所给定的各参数

示例：

awk -v FS=':' '{print $1,FS,$ 3}’ /etc/passwd：以冒号为输入字段分隔符，打印1、：、3字段
awk -v FS=‘:’ -v OFS=‘----’ '{print $1,$ 3,$7}’ /etc/passwd：以冒号为输入字段分隔符，以----为输出字段分隔符，打印1、3、7字段
awk -v RS=' ' ‘{print }’ /etc/passwd：以空格为输入记录分隔符，碰到空格就换行，打印每行
awk -v RS=' ' -v ORS='###'‘{print }’ /etc/passwd：以空格为输入记录分隔符，以###为输出记录分隔符，打印每行
awk -F： ‘{print NF}’ /etc/fstab：以冒号为字段分隔符，打印每行被冒号分割成的字段数
awk -F: '{print $(NF-1)}' /etc/passwd
awk '{print NR}' /etc/fstab：打印记录号
awk END'{print NR}' /etc/fstab：结束时打印记录号
awk '{print FNR}' /etc/fstab /etc/inittab：分别打印两个文件的记录号，独立计数
awk '{print FILENAME}’ /etc/fstab：每行都打印当前文件名
awk '{print ARGC}’ /etc/fstab /etc/inittab：每行都打印当前命令行的参数个数
awk ‘BEGIN {print ARGC}’ /etc/fstab /etc/inittab：开始打印当前命令行的参数个数
awk ‘BEGIN {print ARGV[0]}’ /etc/fstab /etc/inittab：开始打印命令行所给定的第一个参数

自定义变量

定义方式：

-v var=value
在program中直接定义

示例：

awk -v test='hello gawk' '{print test}' /etc/fstab：定义变量test，每行都打印test变量的内容
awk -v test='hello gawk' 'BEGIN{print test}'：定义变量test，开始打印test变量的内容
awk 'BEGIN{test="hello,gawk";print test}'：在program中定义变量test，开始i打印test变量的内容

awk –F:‘{sex=“male”;print $1,sex,age;age=18}’ /etc/passwd：首行未打印age是因为起初age变量未定义

[root@centos6 ~]# awk -F: '{sex="male";print $1,sex,age;age=18}' /etc/passwd
root male 
bin male 18
......
tcpdump male 18

p'rintf

格式化输出：printf “FORMAT”, item1, item2, ...

必须指定FORMAT
不会自动换行，需要显式给出换行控制符，\n
FORMAT中需要分别为后面每个item指定格式符

格式符：

%c：显示字符的ASCII码
%d, %i：显示十进制整数
%e, %E：显示科学计数法数值
%f：显示为浮点数
%g, %G：以科学计数法或浮点形式显示数值
%s：显示字符串
%u：无符号整数
%%：显示%自身

修饰符：

[.#]：第一个数字控制显示的宽度；第二个#表示小数点后精度，%3.1f

-: 左对齐（默认右对齐） %-15s
+：显示数值的正负符号 %+d

示例：

awk -F: ‘{printf "%s",$1}’ /etc/passwd
awk -F: ‘{printf "%s\n",$1}’ /etc/passwd
awk -F: '{printf "%-20s %10d\n", $1,$ 3}' /etc/passwd
awk -F: ‘{printf "Username: %s\n",$1}’ /etc/passwd
awk -F: ‘{printf “Username: %s,UID:%d\n", $1,$ 3}’ /etc/passwd
awk -F: ‘{printf "Username: %15s,UID:%d\n", $1,$ 3}’ /etc/passwd
awk -F: ‘{printf "Username: %15s,UID:%d\n", $1,$ 3}’ /etc/passwd

操作符

算术操作符：+、-、*、/、^、%

赋值操作符：=、+=、-=、*=、/=、%=、^=、++、--

[root@centos6 ~]# awk 'BEGIN{i=0;print ++i,i}'
1 1
[root@centos6 ~]# awk 'BEGIN{i=0;print i++,i}'
0 1

比较操作符：==、!=、>、>=、<、<=

模式匹配符：~、!~

示例：

awk –F: ' $0 ~ /root/{print$ 1}‘ /etc/passwd
awk '$0 ~“^root"' /etc/passwd
awk '$0 !~ /root/‘ /etc/passwd
awk –F: ‘$3==0’ /etc/passwd

逻辑操作符：&&、||、!

示例：

awk -F: ' $3>=0 &&$ 3<=1000{print $1}' /etc/passwd
awk -F: ' $3==0 ||$ 3>=1000 {print $1}' /etc/passwd
awk -F: ‘!( $3==0) {print$ 1}' /etc/passwd
awk -F: ‘!( $3>=500) {print$ 3}’ /etc/passwd

条件表达式（三目表达式）：selector?if-true-expression:if-false-expression

示例：

awk -F: '{ $3>=1000?usertype="Common User":usertype="Sysadmin or SysUser";printf "%15s:%-s\n",$ 1,usertype}' /etc/passwd

awk PATTERN

根据pattern条件，过滤普配的行，再做处理

如果未指定：：空模式，匹配每一行
/regular expression/：正则匹配，仅处理能够模式匹配到的行，需要用/ /括起来
relational expression：关系表达式，结果为“真”才会被处理（真：结果为非0值，非空字符串、假：结果为空字符串或0值）
/pat1/,/pat2/
BEGIN/END模式

示例：

awk -F: 'i=1;j=1{print i,j}' /etc/passwd
awk '!0' /etc/passwd ; awk '!1' /etc/passwd
awk -F: ' $3>=1000{print$ 1,$3}' /etc/passwd
awk -F: ' $3<1000{print$ 1,$3}' /etc/passwd
awk -F: ' $NF=="/bin/bash"{print$ 1,$NF}' /etc/passwd
awk -F: ' $NF~"bash"{print$ 1,$NF}' /etc/passwd
awk -F: '/^root\>/,/^nobody\>/{print $1}' /etc/passwd：\>锚定单词词尾
awk -F: 'NR>=10 && NR<=20{print NR,$1}' /etc/passwd
awk -F: 'BEGIN{print "USER USERID"}{print $1":"$ 3}END{print "end file"}' /etc/passwd
awk -F: '{print "USER USERID";print $1":"$ 3}END{print "end file"}' /etc/passwd
awk -F: 'BEGIN{print " USER UID \n--------------- "}{print $1,$ 3}' /etc/passwd
awk -F: 'BEGIN{print " USER UID \n--------------- "}{print $1,$ 3}END{print "=============="}' /etc/passwd
seq 10 | awk 'i=0'：0表示假，不执行操作
seq 10 | awk 'i=1'：1表示真，执行默认操作，打印全行
seq 10 | awk 'i=!i'：打印奇数行
seq 10 | awk '{i=!i;print i}'
seq 10 | awk '!(i=!i)'：打印偶数行
seq 10 | awk -v i=1 'i=!i'：打印偶数行

awk action

if-else

if(condition1){statement1}else if(condition2){statement2}else{statement3}

示例：

awk -F: '{if( $3>=1000)print$ 1,$3}' /etc/passwd
awk -F: '{if( $NF=="/bin/bash")print$ 1}' /etc/passwd
awk '{if(NF>5)print $0}' /etc/fstab
awk -F: '{if( $3>=1000) {printf "Common user: %s\n",$ 1} else {printf "root or Sysuser: %s\n",$1}}' /etc/passwd
awk -F: '{if( $3>=1000) printf "Common user: %s\n",$ 1; else printf "root or Sysuser: %s\n",$1}' /etc/passwd
df -h|awk -F% '/^/dev/{print $1}'|awk '$ NF>=80{print $1,$ 5}’
awk 'BEGIN{ test=100;if(test>90){print "very good"}else if(test>60){ print "good"}else{print "no pass"}}'

while

while(condition1){statement1}

对一行内的多个字段逐一类似处理时使用，对数组中的各元素逐一处理时使用

示例：

awk '/^[[:space:]]*linux16/{i=1;while(i<=NF){print $i,length($ i);i++}}' /etc/grub2.cfg
awk '/^[[:space:]]*linux16/{i=1;while(i<=NF){if(length( $i)>=10){print$ i,length($i)}; i++}}' /etc/grub2.cfg

do-while

do {statement;…}while(condition)

无论真假，至少执行一次循环体，尾部判断

示例：

awk 'BEGIN{total=0;i=0;do{total+=i;i++}while(i<=100);print total}'：1+...+100总和

for

for(expr1;expr2;expr3) {statement;…}

特殊用法便利数组中的元素：for(var in array) {for-body}

示例：

awk '/^[[:space:]]*linux16/{for(i=1;i<=NF;i++) {print $i,length($ i)}}' /etc/grub2.cfg

switch

switch(expression) {case VALUE1 or /REGEXP/: statement1; case VALUE2 or /REGEXP2/: statement2; ...; default: statementn}

break

和shell脚本中的break类似

awk 'BEGIN{sum=0;for(i=1;i<=100;i++){if(i==66)break;sum+=i}print sum}'

continue

和shell脚本中的continue类似

awk 'BEGIN{sum=0;for(i=1;i<=100;i++){if(i%2==0)continue;sum+=i}print sum}'

提前结束对本行处理而直接进入下一行处理（awk自身循环）

awk -F: '{if( $3%2!=0)next;print$ 1,$3}' /etc/passwd

数组

index-expression：

可使用任意字符串；字符串要使用双引号括起来

如果某数组元素事先不存在，在引用时，awk会自动创建此元素，并将其值初始化为“空串”

数组遍历：

若要遍历数组中的每个元素，要使用for循环

for(var in array) {for-body}

注意：var会遍历array的每个索引

示例：

awk 'BEGIN{weekdays["mon"]="monday";weekdays["tue"]="tuesday";print weekdays["mon"]}'
awk '!arr[$0]++' test.txt：去重复行
awk '{!arr[ $0]++;print$ 0, arr[$0]}' dupfile
awk 'BEGIN{weekdays["mon"]="monday";weekdays["tue"]="tuesday";for(i in weekdays){print weekdays[i]}}'
netstat -tan|awk '/^tcp/{state[$NF]++}END{for(i in state){print i,state[i]}}'：取tcp各监听状态数量
awk '{ip[$1]++}END{for(i in ip) {print i,ip[i]}}' /var/log/httpd/access_log

函数

srand()：置随机数种子
rand()：返回0和1之间一个随机数

length([s])：返回指定字符串的长度

sub(r,s,[t])：对t字符串进行搜索r表示的模式匹配的内容，并将第一个匹配的内容替换为s
gsub(r,s,[t])：对t字符串进行搜索r表示的模式匹配的内容，并全部替换为s所表示的内容

split(s,array,[r])：以r为分隔符，切割字符串s，并将切割后的结果保存至array所表示的数组中，第一个索引值为1,第二个索引值为2,…

自定义函数：
function name ( parameter, parameter, ... ) {
statements
return expression
}

示例：

awk 'BEGIN{srand();for(i=1;i<=10;i++)print int(rand()*100)}'
echo "2008:08:08 08:08:08" | awk 'sub(/:/,"-",$1)'
echo "2008:08:08 08:08:08" | awk 'gsub(/:/,"-",$0)'
netstat -tan|awk '/^tcp>/{split($5,ip,":");count[ip[1]]++}END{for(i in count){print i,count[i]}}'：查看tcp各ip连接数量

system调用shell命令

空格是awk中的字符串连接符，如果system中需要使用awk中的变量可以使用空格分隔，或者说除了awk的变量外其他一律用""引用起来

示例：

awk 'BEGIN{system("hostname")}'
awk 'BEGIN{score=100;system("echo your score is " score)}'

awk脚本

将awk程序写成脚本，直接调用或执行

[root@centos6 app]# cat fi.awk 
{if($3>=1000){print $1,$3}}
[root@centos6 app]# awk -F: -f fi.awk /etc/passwd
nfsnobody 65534

[root@centos6 app]# cat f2.awk 
#!/bin/awk -f
{if($3>=1000){print $1,$3}}
[root@centos6 app]# chmod +x f2.awk 
[root@centos6 app]# ./f2.awk -F: /etc/passwd
nfsnobody 65534

向awk脚本传递参数

awkfile var=value var2=value2... Inputfile

[root@centos6 app]# cat test.awk 
#!/bin/awk -f
{if($3>=min && $3<=max){print $1,$3}}
[root@centos6 app]# chmod +x test.awk 
[root@centos6 app]# ./test.awk -F: min=100 max=200 /etc/passwd
usbmuxd 113
avahi-autoipd 170
abrt 173

[root@centos6 app]# awk -F: -v min=100 -v max=200 '{if($3>=min && $3<=max){print $1,$3}}' /etc/passwd
usbmuxd 113
avahi-autoipd 170
abrt 173

练习

统计/etc/fstab文件中每个文件系统类型出现的次数

[root@centos6 app]# awk '/^UUID/{type[$3]++}END{for(i in type){print i,type[i]}}' /etc/fstab 
swap 1
ext4 3

统计/etc/fstab文件中每个单词出现的次数

[root@centos6 app]# awk '{for(i=0;i<NF;i++){$(NF-i) ~ /\<[[:alpha:]]+\>/ && count[$(NF-i)]++}}END{for(i in count){print i,count[i]}}' /etc/fstab

提取出字符串Yd$C@M05MB%9&Bdh7dq+YVixp3vpw中的所有数字

[root@centos6 app]# echo "Yd$C@M05MB%9&Bdh7dq+YVixp3vpw"|awk -F '' '{for(i=1;i<=NF;i++){if($i ~ /[[:digit:]]/)printf $i}}'
05973[root@centos6 app]#

解决DOS攻击生产案例：根据web日志或者或者网络连接数，监控当某个IP并发连接数或者短时内PV达到100，即调用防火墙命令封掉对应的IP，监控频率每隔5分钟。防火墙命令为：iptables -A INPUT -s IP -j REJECT

AWK

AWK

介绍