轻松实践Linux - 了解shell脚本及grep、sed、awk、uniq、sort命令

网上很多关于Linux Shell这方面的教程质量参差不齐,所以在这里收获不小后,决定写篇博客,方便更多的人学习。

本文题集基于小练习,数据请自行下载。
这些题的答案都是我自己写的,感觉很多都只是实现了功能但是并不高效,希望大家能在评论区留下更好的答案,一起交流。现在我在很多地方都能用上这些强大的命令,所以想为这个题集做点贡献,方便大家。

一、Linux Shell入门

推荐阅读

Learn UNIX in 10 minutes

Quiz 1 一个接受命令行参数的shell脚本

任务 编写一个shell脚本1.sh,这个脚本接受一个命令行参数,并把这个参数打印两次到标准输出。如果输入没有参数输入或者有多于一个参数输入,输出"error"。

样例 1.

./1.sh hello
hellohello

样例 2.

./1.sh
error

运行命令

sh 1.sh [ARGUMENT]

Quiz1 我的代码如下

#!/bin/bash
if [ $# -eq 1 ]
    then echo "$1$1"
else
    echo "error"
fi

$1: 表示输入的参数
$#: 表示输入的参数数目

Quiz 2 生成时间相关文件夹

任务 编写一个shell脚本2.sh,无论脚本在任何位置用绝对路径执行都能完成这样的任务,在脚本2.sh所在目录新建一个空文件tmp_YYYYMMDD YYYYMMDD为当前日期

运行命令
命令:

sh src/2.sh; ls src

输出:

2.sh tmp_20130329

Quiz2 我的代码如下

#!/bin/bash
mkdir 'tem_'`date '+%Y%m%d'`

二、学习grep

推荐阅读

题目

你需要用grep脚本(或者用grep和其他shell命令配合)实现如下一些功能

Quiz 1

任务 请完成脚本1.sh,统计文件中的空行个数并输出

数据 1.dat

测试命令

sh 1.sh 

Quiz1 我的代码如下

#!/bin/bash
echo `grep '^$' 1.dat | wc -l`

^$表示开头即结尾-也就是空行,再用wc统计下行数即可。

Quiz 2

任务 请完成脚本2.sh,统计文件中不包含".txt"的行的行数并输出

数据 2.dat

测试命令

sh 2.sh

Quiz2 我的代码如下

#!/bin/bash
echo `grep -v '.txt' 2.dat`

先找到含.txt的行,再用-v参数,含义为--invert-match, 即取逆。

Quiz 3

任务 请完成脚本3.sh,求两个文件的差集(3a.txt-3b.txt)并排序输出到标准io中

数据 3a.dat, 3b.dat

测试命令

sh 3.sh

Quiz3 我的代码如下

#!/bin/bash
echo `grep -f 3b.dat 3a.dat -v`

-f [arg]:从文件[arg]中取patterns。
-v参数:取逆。

所以上面命令的含义是:根据3b.dat的所有行建立pattern,从3a.dat中找到符合此pattern的行(此时即为3b.dat∩3a.dat),再取3a.dat的逆。
故流程为:

  • 第一步:返回3b.dat∩3a.dat
  • 第二步:返回3a.dat - (3b.dat∩3a.dat) = 3a.dat - 3b.dat

Quiz 4

任务 在log文件中,有表示各轮迭代模型性能的报告(如下所示),

Total:      P=0.97198463(7841/8067) R=0.97914585(7841/8008) F=0.97555210

请将他们提取出来,并以如下格式输出。

P=0.97 R=0.98 F=0.98

数据 4.dat

测试命令

sh 4.sh

Quiz4 我的代码如下

#!/bin/bash
grep 'Total:' 4.dat | sed 's/[a-zA-Z :*=]//g' | awk '{printf("P=%.2f R=%.2f F=%.2f \n", $1, $2, $3)}'

流程如下:

  • 第一步:用grep取出含Total:的行。
  • 第二步:用sed将此行中的空格 : * =及字母全部删除。
  • 第三步:用awk将数据按格式输出。

三、学习Awk

推荐阅读

题目

Quiz1

输出一个文件所有的偶数行,数据1.dat

Quiz1 我的代码如下

#!/bin/bash
awk '!(NR%2)' 1.dat

NR表示:操作的当前行数。
如果操作的行数不是奇数,则输出。

Quiz2

对于一个保存单词 频率的文件,要同时计算它的累积频率,并将它填在第三列,数据2.dat
举例如下,输入文件是

the 100
i 50
is 45
...

输出文件是

the 100 100
i 50 150
is 45 195
...

Quiz2 我的代码如下

#!/bin/bash
awk '{count=count+$2;printf("%s %d\n", $0, count)}' 2.dat

利用count暂存第二列数据,然后在该行第三列打印出即可。

Quiz3

读入一个包含词性的文件,从中提取出原始句子。
输入文件格式:

石家庄_ns 空气_n 污染_vn 排_v 第一_m
潘石屹_ns 遭遇_v 被_p 代言_n
...

输出文件:

石家庄空气污染排第一
潘石屹遭遇被代言
...

Quiz3 我的代码如下

#!/bin/bash
sed 's/_[a-zA-Z ]*//g' 3.dat

_和后面的词性及空格去掉即可。

四、学习sed

推荐阅读

题目

请使用sed完成下列任务。当然,你也可以使用之前的shell命令(比如awk、grep)与sed配合。

Quize 1

任务 去掉文件中的空行

数据1.dat

Quiz1 我的代码如下

#!/bin/bash 
sed 's/ //g' 1.dat

Quiz 2

任务某个文件包含三列,第三列是文本,但是文本被'扩了起来,请用提取出这一列并去掉开头和结尾的'符号。

数据2.dat

Quiz2 我的代码如下

#!/bin/bash
cut -d " " -f 7- 2.dat | sed "s/^'//g;s/'$//g"

将第三列取出,再取出前后的'符号即可。

五、学习Uniq和Sort

Quiz 1

Find out the most frequency 100 queries from the query log

有用户日志文件,每行记录了一个用户查询串,长度为1-255字节,共1千万行,请排出查询最多的前100条。数据query_log.txt

提示

  • 使用uniq -c 可以统计词频
  • 使用sort -k <column>可以指定对输入按照第<column>列进行排序
  • 使用sort -n 可以指定采用数值方法进行排序
  • 使用sort -r 可以指定逆序排序
  • 使用sed将空格替换为\n

Quiz1 我的代码如下

#!/bin/bash
sort query_log.txt | uniq -c | sort -r | head -100

通过uniq统计行数,再用sort逆序排序,再用head输出前100行即可。
这里有个坑点是数据要先sort一下不然会出现重复词无法集中统计的问题,详细可以见uniq的manual描述:


直白的翻译是:
输入中不相邻的重复行不会被发现,所以你可能需要先对文件排序。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 本文承接之前写的三十分钟学会AWK一文,在学习完AWK之后,趁热打铁又学习了一下SED,不得不说这两个工具真的堪称...
    mylxsw阅读 4,382评论 3 74
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,128评论 2 34
  • grep grep的基本用法 grep命令是支持正则表达式的一个多用途文本搜索工具,一般格式为 grep 选项 模...
    王诗翔阅读 2,898评论 2 34
  • sed与awk实例 文本间隔 在每一行后面增加一空行 将原来的所有空行删除并在每一行后面增加一空行。这样在输出的文...
    stuha阅读 1,881评论 0 21
  • 长这么大我觉得自己最喜欢的一点是写作,从小的时候语文就比数学好;最不喜欢的一点就是开口说话。 至今还清晰的记得小时...
    江月的书妆台阅读 308评论 0 2