【linux编程】Linux文本处理三剑客——awk

awk 基本语法：

awk 'BEGIN{} {command} END{}' filename

awk 是逐行处理文本内容的；
BEGIN{} 是初识化代码块，在处理文件第一行内容之前，定义一些变量；
{command} 为一些命令，依次对文件内容的每一行进行相应地处理；
END{} 为结束代码块，在{command} 运行结束后执行。

BEGIN{} 和 END{} 都不是必须的，所以，往往可以这样写：

awk '{command}' filename

awk 的输入被解析成多个记录（Record），默认的记录分隔符是 \n，因此可以认为一行就是一个记录，记录的分隔符（当前行和下一行之间的分隔符）可以通过内置变量 RS （record separator）更改。

而对于当前行，默认分隔符为空格（包括 tab）；通过分隔符，将一行数据分割成许多列，如打印文件的第一列或第二列：

$0 则表示所有的列
$1 就是只第一列
$2 表示第二列等

# 创建文件
df -h | tee -a df.txt

Filesystem      Size  Used Avail Use% Mounted on
rootfs          119G   57G   62G  48% /
tmpfs           119G   57G   62G  48% /run
none            119G   57G   62G  48% /run/lock
none            119G   57G   62G  48% /run/shm
none            119G   57G   62G  48% /run/user

打印所有行

awk '{print $0}' df.txt
Filesystem      Size  Used Avail Use% Mounted on
rootfs          119G   57G   62G  48% /
tmpfs           119G   57G   62G  48% /run
none            119G   57G   62G  48% /run/lock
none            119G   57G   62G  48% /run/shm
none            119G   57G   62G  48% /run/user

打印行号

leadingsci@DELL5577:~/Test$ awk '{print NR,$0}' df.txt
1 Filesystem      Size  Used Avail Use% Mounted on
2 rootfs          119G   57G   62G  48% /
3 tmpfs           119G   57G   62G  48% /run
4 none            119G   57G   62G  48% /run/lock
5 none            119G   57G   62G  48% /run/shm
6 none            119G   57G   62G  48% /run/user

打印第一行

leadingsci@DELL5577:~/Test$ awk 'NR==1{print $0}' df.txt
Filesystem      Size  Used Avail Use% Mounted on

打印非第一行

leadingsci@DELL5577:~/Test$ awk 'NR!=1{print $0}' df.txt
rootfs          119G   57G   62G  48% /
tmpfs           119G   57G   62G  48% /run
none            119G   57G   62G  48% /run/lock
none            119G   57G   62G  48% /run/shm
none            119G   57G   62G  48% /run/user

awk的加减乘除

leadingsci@DELL5577:~/Test$ awk 'NR==1{print $1,$2,$3,$4,$5}NR!=1{print $1,$3/$2,$4/$2,$3+$4,$2-$3}' df.txt
Filesystem Size Used Avail Use%
rootfs 0.478992 0.521008 119 62
tmpfs 0.478992 0.521008 119 62
none 0.478992 0.521008 119 62
none 0.478992 0.521008 119 62
none 0.478992 0.521008 119 62

log为底

leadingsci@DELL5577:~/Test$ awk 'NR==1{print $1,$2,$3,$4,$5}NR!=1{print $1,log($3/$2),log($4/$2),$3+$4,$2-$3}' df.txt
Filesystem Size Used Avail Use%
rootfs -0.736072 -0.651989 119 62
tmpfs -0.736072 -0.651989 119 62
none -0.736072 -0.651989 119 62
none -0.736072 -0.651989 119 62
none -0.736072 -0.651989 119 62

awk 中支持以下数学函数

atan2(y,x)：余切；
cos(x)：余弦；
sin(x)：正弦；
exp(x)：以自然对数 e 为底指数幂；
log(x)：计算以 e 为底的对数值；
sqrt(x)：开方；
int(x)：将数值转换成整数；
rand()：返回 0 到 1 的一个随机数值，不包含 1；
srand([expr])：设置随机种子，一般与 rand 配合使用，如果参数为空，默认使用当前时间为种子。

某一列求和

leadingsci@DELL5577:~/Test$ awk 'NR!=1{sum+=$2}END{print sum}' df.txt
595

计算列数

NF （number of fields，域的数量，域就是列），是 awk 的内置标量；其默认按空格分割，记录每一行有多少列。

leadingsci@DELL5577:~/Test$ awk '{print NF}' df.txt
7
6
6
6
6
6

打印最后一列

leadingsci@DELL5577:~/Test$ awk '{print $NF}' df.txt
on
/
/run
/run/lock
/run/shm
/run/user

改变文件内容的分隔符

OFS （output field separator），可以指定输出内容的分隔符

leadingsci@DELL5577:~/Test$ awk 'BEGIN{OFS="-"}{print $1,$2,$3,$4}' df.txt
Filesystem-Size-Used-Avail
rootfs-119G-57G-62G
tmpfs-119G-57G-62G
none-119G-57G-62G
none-119G-57G-62G
none-119G-57G-62G

但不改变所有行

leadingsci@DELL5577:~/Test$ awk 'BEGIN{OFS="-"}{print $0}' df.txt
Filesystem      Size  Used Avail Use% Mounted on
rootfs          119G   57G   62G  48% /
tmpfs           119G   57G   62G  48% /run
none            119G   57G   62G  48% /run/lock
none            119G   57G   62G  48% /run/shm
none            119G   57G   62G  48% /run/user

改变所有行分隔符

原理是当对 $1、$2 等以及列数 NF 的赋值时，$0 会用 OFS 进行重构（即 OFS 生效）。

leadingsci@DELL5577:~/Test$ awk 'BEGIN{OFS="-"}{NF=NF;print $0}' df.txt
Filesystem-Size-Used-Avail-Use%-Mounted-on
rootfs-119G-57G-62G-48%-/
tmpfs-119G-57G-62G-48%-/run
none-119G-57G-62G-48%-/run/lock
none-119G-57G-62G-48%-/run/shm
none-119G-57G-62G-48%-/run/user

# 或者

leadingsci@DELL5577:~/Test$ awk 'BEGIN{OFS="-"}{$1=$1;print $0}' df.txt
Filesystem-Size-Used-Avail-Use%-Mounted-on
rootfs-119G-57G-62G-48%-/
tmpfs-119G-57G-62G-48%-/run
none-119G-57G-62G-48%-/run/lock
none-119G-57G-62G-48%-/run/shm
none-119G-57G-62G-48%-/run/user

指定输入的分隔符

FS （field separator）的作用是指定输入内容的分隔符，与 OFS 相反。

leadingsci@DELL5577:~/Test$ awk -F ':' '{print $0}' passwd |head -n 4
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin

# 或者
leadingsci@DELL5577:~/Test$ awk 'BEGIN{FS=":"}{print $0}' passwd |head -n 4
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin

BEGIN 的作用是初始化，即在读入文件内容的第一行之前，就定义好了 FS 的值；如果不用 BEGIN，显然会出点小 bug

小结-部分内置变量

$n 当前记录的第 n 个字段，字段间由 FS 分隔，如 $1、$2 等
$0 完整的输入记录，即当前的那一行
NR 当前记录数，即行数
FS 当前记录分隔符（默认是空格）
NF 当前记录中的列数
OFS 输出列的分隔符（默认值是一个空格）

筛选

打印第三列

leadingsci@DELL5577:~/Test$ awk -F ':' '{print $0}' passwd|awk -F ':' '$3>100'
nobody:x:65534:65534:nobody:/nonexistent:/usr/sbin/nologin
syslog:x:101:104::/home/syslog:/bin/false
messagebus:x:102:106::/var/run/dbus:/bin/false
landscape:x:103:109::/var/lib/landscape:/bin/false
sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin
pollinate:x:105:1::/var/cache/pollinate:/bin/false
gene:x:1000:1000:"",,,:/home/gene:/bin/bash

只打印第一列为”root“的一行

leadingsci@DELL5577:~/Test$ awk -F ':' '{print $0}' passwd|awk -F ':' '$1=="root"'
root:x:0:0:root:/root:/bin/bash

打印第二行

leadingsci@DELL5577:~/Test$ awk -F ':' '{print $0}' passwd|awk -F ':' 'NR==2'
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin

打印奇数行

leadingsci@DELL5577:~/Test$ awk -F ':' '{print $0}' passwd|awk -F ':' 'NR%2==1'
root:x:0:0:root:/root:/bin/bash
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345