4.4 Linux文本处理三剑客——grep awk sed

人生中最美好的时光是你为你的问题，承担起全部的责任的那些年。你不责怪你的亲人、环境、朋友。你意识到你能控制你自己的命运！

人生就是多点快乐，少点烦恼；累了就睡觉，醒了就微笑；闲了就思考，做一个单纯的人如此简单！

真正的耳聪是能听到心声，真正的目明是能透视人心！

Linux 也有自己的法宝，称之为三剑客：grep，awk 和 sed。
你可以用这三件法宝很方便的处理数据：查找，分段，修改
而这三个功能对应着我们今天的主角：grep，awk，sed

1. grep

grep 是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。

grep家族：
grep,egrep,fgrep(不支持正则表达式,快)

想掌握 grep，你还要了解下面表格中的信息，表格是剑术手册，至关重要：

命令	描述
-A n	追加显示结果行后面 n 行 after
-B n	追加显示结果行前面 n 行 before
-C n	追加显示结果行前后 n 行，默认 -C 2，表示 -A 2 -B 2
-c, --count	显示搜索结果数量
-o	只打印匹配结果部分
-E	使用扩展版正则表达式匹配，相当于执行 egrep
-F	使用静态字符串匹配，相当于执行 fgrep
-z	先解包再搜索，相当于执行 zgrep
-e pattern	表示后续字符串为目标正则表达式，主要用于同时使用多个 -e 匹配多个模式，也用于正则表达式开头为 - 的场合（消除歧义）
-v	反向搜索，打印不被pattern 匹配到的行
-q,--quiet,--silent	非贪婪式搜索，搜到一个结果时停止继续搜索该文件
--exclude,--exclude-dir pattern	排除非目标搜索文件或目录，高优先级
--include,--include-dir pattern	仅搜索目标文件或目录，低优先级
-f file	指定搜索某个文件
-H,-h	打印、不打印文件名
-n	显示匹配的行号，从 1 开始
-I	忽略二进制文件
-i	忽略大小写，默认大小写敏感
-L	仅列出打印不含目标搜索结果的文件
-l	仅列出打印包含目标搜索结果的文件
-m n	仅显示前 n 个结果
-R	递归扫描子文件夹
-S	递归扫描时，追踪扫描符号链接文件、目录，默认不追踪（等同于指定 -p）
-s	静默模式，忽略错误文件
-w,-x	正则模式作为单个完整单词、完整行进行搜索；匹配整个单词

每个命令执行成功都有一个输出码（0-255）；

grep --help #查看帮助信息；

2. awk

Linux上的gwak,文本报告生成器；
awk 是老大，他甚至可以代替 grep，awk 不光支持正则，还可以对字段进行分段处理

echo $PATH | awk 'BEGIN{RS=":"}{print $0}' \
 | awk -F/ '{print $1,$2}'

#echo $PATH 打印本地的环境变量；
/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

#awk 把他们分行 awk'BEGIN{RS=":"}{print $0}'，其中 RS 的意思是用:作为记录分割符，将上面的内容 分行， BEGIN 的意思是 初始化代码块，在对每一行进行处理之前，先执行 BEGIN 中的内容
/usr/local/sbin
/usr/local/bin
/usr/sbin
/usr/bin
/sbin
/bin

#用 awk 去掉这个拦路虎 awk-F/'{print $1,$2}' 命令用 -F/表示用 / 作为分隔符， $1 和 $2 表示提取每行前 2 个内容， print 进行打印:
 usr
 usr
 usr
 usr
 sbin
 bin

其实参数 FS与 F的使用相同，上面的剑客也可以这么用：
 echo $PATH | awk 'BEGIN{RS=":"}{print $0}' \
 | awk 'BEGIN{FS="/"}{print $1,$2}'

awk 语法
awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file

选项	解释
[-F\|-f\|-v]	-F 指定分隔符，-f 调用脚本，-v 定义变量 var=value
' '	引用代码块
BEGIN	初始化代码块，在对每一行进行处理之前，初始化代码，主要是引用全局变量，设置 FS 分隔符
//	匹配代码块，可以是字符串或正则表达式
{}	命令代码块，包含一条或多条命令
；	多条命令使用分号分隔
END	结尾代码块，在对每一行进行处理之后再执行的代码块，主要是进行最终计算或输出结尾摘要信息

还有常见的其他命令：

其他命令	解释
$0	表示整个当前行
$1	每行第一个字段
NF	字段数量变量
NR	每行的记录号，多文件记录递增
FNR	与 NR 类似，不过多文件记录不递增，每个文件都从 1 开始
\t	制表符
\n	换行符
FS	BEGIN 时定义分隔符
RS	输入的记录分隔符，默认为换行符 (即文本是按一行一行输入)
~	匹配，与 == 相比不是精确比较
!~	不匹配，不精确比较
==	等于，必须全部相等，精确比较
!=	不等于，精确比较
&&	逻辑与
\|\|	逻辑或
+	匹配时表示 1 个或 1 个以上
/[0-9][0-9]+/	两个或两个以上数字
/[0-9][0-9]*/	一个或一个以上数字
FILENAME	文件名
OFS	输出字段分隔符，默认也是空格，可以改为制表符等
ORS	输出的记录分隔符，默认为换行符 , 即处理结果也是一行一行输出到屏幕
-F'[:#/]'	定义三个分隔符

除此之外，如果你想查看更多有关 awk 的内容，可以用：

awk --help

3. sed

严格来说：sed 是一种文本编辑工具（stream editor），它是文本处理中非常有用的工具，能够完美的配合正则表达式使用，功能不同凡响；

sed 的命令格式如下：
sed [options] 'command' file(s)
sed [options] -f scriptfile file(s)

定界范围

定界	说明
m	查找m行本身
$	匹配最后一行
m，m
m，+m
/pat1/，/pat2/	第一个匹配模式行开始都第二个匹配模式匹配到的行
m，/pat1/
1~2	处理所有的奇数行
2~2	处理所有的偶数行

sed是行编辑器；先读到内存中匹配，
1.可以保存模式空间的内容；

-i 就地修改，不到万不得已不要就地修改；
|参数 |完整参数 |说明|
| --- | --- | ---
|-e |script --expression=script |以选项中的指定的 script 来处理输入的文本文件
|-f |script --files=script |以选项中的指定的 script 文件来处理输入的文本文件
|-h |--help |显示帮助
|-n |--quiet --silent |仅显示 script 处理后的结果
|-V |--version| 显示版本信息

命令

命令	说明
d	删除，删除选择的行
D	删除模板块的第一行
s	替换一次指定字符，要全部替换加g
h	拷贝模板块的内容到内存中的缓冲区
H	追加模板块的内容到内存中的缓冲区
g	获得内存缓冲区的内容，叫做行内全局替换；
G	获得内存缓冲区的内容，并追加到当前模板块文本的后面
l	列表不能打印字符的清单
n	读取下一个输入行，用下一个命令处理新的行而不是第一个命令
N	追加下一个输入行到模板块后面并在二者间嵌入一个新行，改变当前行号码
p	显示替换成功的行
P	打印模板块的第一行
q	退出 sed
b label	分支到脚本中带有标记的地方，如果分支不存在则分支到脚本的末尾
r file	从 file 中读行/脚本
t label	if 分支，从最后一行开始，条件一旦满足或者 T，t 命令，将导致分支到带有标号的命令处，或者到脚本的末尾
T label	错误分支，从最后一行开始，一旦发生错误或者 T，t 命令，将导致分支到带有标号的命令处，或者到脚本的末尾
w file	写并追加模板块到 file 末尾，将替换成功的行保存到文件中；
W file	写并追加模板块的第一行到 file 末尾
!	表示后面的命令对所有没有被选定的行发生作用
=	打印当前行号
#	把注释扩展到第一个换行符以前

替换

s/// : 查找替换，支持使用其他分隔符，s@@@,s###

命令	说明
g	表示行内全面替换
p	表示打印行
w	表示把行写入一个文件 w /PATH/TO/SOMEFILE
x	表示互换模板块中的文本和缓冲区中的文本
y	表示把一个字符翻译为另外的字符（但是不用于正则表达式）
\1	子串匹配标记
&	已匹配字符串标记

扩展：
sed 处理数据时，把当前处理的行存储在临时缓冲区中，称为『模式空间』（pattern space）;
接着用 sed 命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。sed 主要用来自动编辑一个或多个文件，简化对文件的反复操作，编写转换程序等。

扩展内容：正则表达式
大家使用三剑客时，会看到基本正则和扩展正则，他们的区别还是非常大的，基本正则的许多符号需要使用转义字符 \，比如 | 要改成 |，因此建议大家使用扩展正则！

三剑客命令实战

sed

sed 's/ / /g'
#查找行内全局替换
(learn) [dell@Centos7 ~]$ echo "How old are you , old man?"|sed 's/ol/OL/g'
How OLd are you , OLd man?

sed 's/ / /gi'
#查找时不区分大小写
(learn) [dell@Centos7 ~]$ echo "How old are you , old man?"|sed 's/ol/OL/gi'
How OLd are you , OLd man?

sed 两种转义的方式：
(learn) [dell@Centos7 ~]$ echo "/var/log/messages"|sed"s#message#http/access_log#g"
(learn) [dell@Centos7 ~]$ echo "/var/log/messages"|sed"s/message/http\/access_log/g"

sed 实例
#打印2次第二行
sed '2p' /etc/passwd

#打印一次第二行；
sed -n '2p' /etc/passwd

#打印1-4行；
sed -n '1,4p' /etc/passwd

#打印包含root的行
sed -n '/root/p' /etc/passwd

#打印第二行到第一次匹配到root的行；加 ，= 范围；
sed -n '2,/root/p' /etc/passwd

sed -n '/^$/=' file    #打印空行的行号；

sed -i '/^[[:space:]]*$/d' file   # 删除包含空白字符的空白行；

sed '/root/a\superman' /etc/passwd   #行后添加 superman

sed '/root/i\superman' /etc/passwd   #行前添加 superman

sed '/root/c\superman' /etc/passwd   #superman代替整行 

#文件名替换
awk '{print $2"\t" $1}' test.fa |sed 's/OriSeqID=/>/;s/^\t//;s/\t>/\t/'