4.4 Linux文本处理三剑客——grep awk sed

人生中最美好的时光是你为你的问题,承担起全部的责任的那些年 。你不责怪你的亲人、环境、朋友 。你意识到你能控制你自己的命运!

人生就是多点快乐,少点烦恼;累了就睡觉,醒了就微笑;闲了就思考,做一个单纯的人 如此简单!

真正的耳聪是能听到心声,真正的目明是能透视人心!


Linux 也有自己的法宝,称之为三剑客:grep,awk 和 sed。
你可以用这三件法宝很方便的处理数据 :查找,分段,修改
而这三个功能对应着我们今天的主角:grep,awk,sed

1. grep

grep 是一种强大的文本搜索工具,它能使用 正则表达式 搜索文本,并把匹配的行打印出来。

grep家族:
grep,egrep,fgrep(不支持正则表达式,快)

想掌握 grep,你还要了解下面表格中的信息,表格是剑术手册,至关重要:

命令 描述
-A n 追加显示结果行后面 n 行 after
-B n 追加显示结果行前面 n 行 before
-C n 追加显示结果行前后 n 行,默认 -C 2,表示 -A 2 -B 2
-c, --count 显示搜索结果数量
-o 只打印匹配结果部分
-E 使用扩展版正则表达式匹配,相当于执行 egrep
-F 使用静态字符串匹配,相当于执行 fgrep
-z 先解包再搜索,相当于执行 zgrep
-e pattern 表示后续字符串为目标正则表达式,主要用于同时使用多个 -e 匹配多个模式,也用于正则表达式开头为 - 的场合(消除歧义)
-v 反向搜索,打印不被pattern 匹配到的行
-q,--quiet,--silent 非贪婪式搜索,搜到一个结果时停止继续搜索该文件
--exclude,--exclude-dir pattern 排除非目标搜索文件或目录,高优先级
--include,--include-dir pattern 仅搜索目标文件或目录,低优先级
-f file 指定搜索某个文件
-H,-h 打印、不打印文件名
-n 显示匹配的行号,从 1 开始
-I 忽略二进制文件
-i 忽略大小写,默认大小写敏感
-L 仅列出打印不含目标搜索结果的文件
-l 仅列出打印包含目标搜索结果的文件
-m n 仅显示前 n 个结果
-R 递归扫描子文件夹
-S 递归扫描时,追踪扫描符号链接文件、目录,默认不追踪(等同于指定 -p)
-s 静默模式,忽略错误文件
-w,-x 正则模式作为单个完整单词、完整行进行搜索;匹配整个单词

每个命令执行成功都有一个输出码(0-255);

grep --help #查看帮助信息;

2. awk

Linux上的gwak,文本报告生成器;
awk 是老大,他甚至可以代替 grep,awk 不光支持正则,还可以对字段进行分段处理

echo $PATH | awk 'BEGIN{RS=":"}{print $0}' \
 | awk -F/ '{print $1,$2}'

#echo $PATH 打印本地的环境变量;
/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

#awk 把他们分行 awk'BEGIN{RS=":"}{print $0}',其中 RS 的意思是用:作为记录分割符,将上面的内容 分行, BEGIN 的意思是 初始化代码块,在对每一行进行处理之前,先执行 BEGIN 中的内容
/usr/local/sbin
/usr/local/bin
/usr/sbin
/usr/bin
/sbin
/bin

#用 awk 去掉这个拦路虎 awk-F/'{print $1,$2}' 命令用 -F/表示用 / 作为分隔符, $1 和 $2 表示提取每行前 2 个内容, print 进行打印:
 usr
 usr
 usr
 usr
 sbin
 bin

其实参数 FS与 F的使用相同,上面的剑客也可以这么用:
 echo $PATH | awk 'BEGIN{RS=":"}{print $0}' \
 | awk 'BEGIN{FS="/"}{print $1,$2}'

awk 语法
awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file

选项 解释
[-F|-f|-v] -F 指定分隔符,-f 调用脚本,-v 定义变量 var=value
' ' 引用代码块
BEGIN 初始化代码块,在对每一行进行处理之前,初始化代码,主要是引用全局变量,设置 FS 分隔符
// 匹配代码块,可以是字符串或正则表达式
{} 命令代码块,包含一条或多条命令
多条命令使用分号分隔
END 结尾代码块,在对每一行进行处理之后再执行的代码块,主要是进行最终计算或输出结尾摘要信息

还有常见的其他命令:

其他命令 解释
$0 表示整个当前行
$1 每行第一个字段
NF 字段数量变量
NR 每行的记录号,多文件记录递增
FNR 与 NR 类似,不过多文件记录不递增,每个文件都从 1 开始
\t 制表符
\n 换行符
FS BEGIN 时定义分隔符
RS 输入的记录分隔符, 默认为换行符 (即文本是按一行一行输入)
~ 匹配,与 == 相比不是精确比较
!~ 不匹配,不精确比较
== 等于,必须全部相等,精确比较
!= 不等于,精确比较
&& 逻辑与
|| 逻辑或
+ 匹配时表示 1 个或 1 个以上
/[0-9][0-9]+/ 两个或两个以上数字
/[0-9][0-9]*/ 一个或一个以上数字
FILENAME 文件名
OFS 输出字段分隔符, 默认也是空格,可以改为制表符等
ORS 输出的记录分隔符,默认为换行符 , 即处理结果也是一行一行输出到屏幕
-F'[:#/]' 定义三个分隔符

除此之外,如果你想查看更多有关 awk 的内容,可以用:

awk --help

3. sed

严格来说:sed 是一种文本编辑工具(stream editor),它是文本处理中非常有用的工具,能够完美的配合正则表达式使用,功能不同凡响;

sed 的命令格式如下:
sed [options] 'command' file(s)
sed [options] -f scriptfile file(s)

定界范围

定界 说明
m 查找m行本身
$ 匹配最后一行
m,m
m,+m
/pat1/,/pat2/ 第一个匹配模式行开始都第二个匹配模式匹配到的行
m,/pat1/
1~2 处理所有的奇数行
2~2 处理所有的偶数行

sed是行编辑器;先读到内存中匹配,
1.可以保存模式空间的内容;

  1. -i 就地修改,不到万不得已不要就地修改;
    |参数 |完整参数 |说明|
    | --- | --- | ---
    |-e |script --expression=script |以选项中的指定的 script 来处理输入的文本文件
    |-f |script --files=script |以选项中的指定的 script 文件来处理输入的文本文件
    |-h |--help |显示帮助
    |-n |--quiet --silent |仅显示 script 处理后的结果
    |-V |--version| 显示版本信息

命令

命令 说明
d 删除,删除选择的行
D 删除模板块的第一行
s 替换一次指定字符,要全部替换加g
h 拷贝模板块的内容到内存中的缓冲区
H 追加模板块的内容到内存中的缓冲区
g 获得内存缓冲区的内容,叫做行内全局替换;
G 获得内存缓冲区的内容,并追加到当前模板块文本的后面
l 列表不能打印字符的清单
n 读取下一个输入行,用下一个命令处理新的行而不是第一个命令
N 追加下一个输入行到模板块后面并在二者间嵌入一个新行,改变当前行号码
p 显示替换成功的行
P 打印模板块的第一行
q 退出 sed
b label 分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾
r file 从 file 中读行/脚本
t label if 分支,从最后一行开始,条件一旦满足或者 T,t 命令,将导致分支到带有标号的命令处,或者到脚本的末尾
T label 错误分支,从最后一行开始,一旦发生错误或者 T,t 命令,将导致分支到带有标号的命令处,或者到脚本的末尾
w file 写并追加模板块到 file 末尾,将替换成功的行保存到文件中;
W file 写并追加模板块的第一行到 file 末尾
! 表示后面的命令对所有没有被选定的行发生作用
= 打印当前行号
# 把注释扩展到第一个换行符以前

替换

s/// : 查找替换,支持使用其他分隔符,s@@@,s###

命令 说明
g 表示行内全面替换
p 表示打印行
w 表示把行写入一个文件 w /PATH/TO/SOMEFILE
x 表示互换模板块中的文本和缓冲区中的文本
y 表示把一个字符翻译为另外的字符(但是不用于正则表达式)
\1 子串匹配标记
& 已匹配字符串标记

扩展:
sed 处理数据时,把当前处理的行存储在临时缓冲区中,称为『模式空间』(pattern space);
接着用 sed 命令处理 缓冲区 中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。sed 主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写转换程序等。

扩展内容:正则表达式
大家使用三剑客时,会看到 基本正则 和 扩展正则,他们的区别还是非常大的,基本正则的许多符号需要使用转义字符 \,比如 | 要改成 |,因此建议大家使用 扩展正则!

三剑客命令实战

sed

sed 's/ / /g'
#查找行内全局替换
(learn) [dell@Centos7 ~]$ echo "How old are you , old man?"|sed 's/ol/OL/g'
How OLd are you , OLd man?

sed 's/ / /gi'
#查找时不区分大小写
(learn) [dell@Centos7 ~]$ echo "How old are you , old man?"|sed 's/ol/OL/gi'
How OLd are you , OLd man?

sed 两种转义的方式:
(learn) [dell@Centos7 ~]$ echo "/var/log/messages"|sed"s#message#http/access_log#g"
(learn) [dell@Centos7 ~]$ echo "/var/log/messages"|sed"s/message/http\/access_log/g"

sed 实例
#打印2次第二行
sed '2p' /etc/passwd

#打印一次第二行;
sed -n '2p' /etc/passwd

#打印1-4行;
sed -n '1,4p' /etc/passwd

#打印包含root的行
sed -n '/root/p' /etc/passwd

#打印第二行到第一次匹配到root的行;加 ,= 范围;
sed -n '2,/root/p' /etc/passwd

sed -n '/^$/=' file    #打印空行的行号;

sed -i '/^[[:space:]]*$/d' file   # 删除包含空白字符的空白行;

sed '/root/a\superman' /etc/passwd   #行后添加 superman

sed '/root/i\superman' /etc/passwd   #行前添加 superman

sed '/root/c\superman' /etc/passwd   #superman代替整行 

#文件名替换
awk '{print $2"\t" $1}' test.fa |sed 's/OriSeqID=/>/;s/^\t//;s/\t>/\t/'

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345