沿着前面的轨迹,接下来是Linux中shell脚本的学习。这对于生信工程师后续处理大量 (海量更合适些) 数据是非常非常重要的,但是同样的,作为一个有点古板的人,对于"脚本"是什么意思我都死磕了好久。主要觉得有些抽象,尤其是跟生信的同事讨论项目分析部分的问题时,他们经常会说道这个词,在他们意识里这是个不言自明的术语,殊不知对外行人而言 (比如我),那简直就是无情的"知识的诅咒"。经常是我假装听懂了,然后继续讨论下面的问题,形成一个模糊的印象。
什么是(shell)脚本
百度上的解释是:脚本(Script)是一种批处理文件的延伸,是一种纯文本保存的程序,一般来说的计算机脚本程序是确定的一系列控制计算机进行运算操作动作的组合,在其中可以实现一定的逻辑分支等。不知道你能不能看懂,反正我开始的时候真是一知半解。
鸟哥私房菜的解释是:shell script是利用 shell 的功能所写的一个"程序",这个程序是使用纯文本文件,将一些shell的语法与命令(含外部命令)写在里面,搭配正则表达式、管道命令与数据流重定向等功能,以达到我们所想要的处理的目的。不明觉厉,好像更看不懂了···
Jude 的简单粗暴大白话解释是:脚本就是Linux中很多命令按照一定规则的组合,以实现某个特定的功能。Linux中有很多简单的命令,往往只是进行了简单的对话,比如 cd 就是进入到某个目录,简单直接。但是如果我想进入某个目录A,然后在目录A中创建目录B,再在目录B中创建文本C呢?当然可以一步一步操作,如果想要一步到位呢,那就可以用脚本,把三个命令写在一起,一起执行。好像有点啰嗦···
或者从英语的角度去理解,脚本的对应英文是Script,而这个单词的中文释义中还有剧本的意思。剧本就好理解了啊,剧本就是导演(生信工程师)基于某个主旨(要实现的目标)按照一定的手法(规则)所写的一个故事。不管是哪个演员,都得按照剧本演。所以,学好英语对于生信也是有帮助的~
脚本分类
按照脚本的复杂程度可以分为:
- 基本脚本
- 含结构化命令的脚本
基本脚本
这个无需多说,其实就是若干个简单命令的顺序排列,执行脚本后会按照命令的前后关系从前往后一一执行。
含结构化命令的脚本
相对于简单的基本脚本,结构化的命令脚本可以施加逻辑流程控制,从而改变程序(命令)执行的顺序。基本脚本中的命令就是从上往下执行,但是结构化的命令脚本可以根据逻辑判断重复或者跳过某些命令。
常用的结构化命令(语句)有:
-
if - then 语句 (这个好理解,懂英语就行)
# 如果怎么怎么样,就怎么怎么样。以 if 为始,以 fi 为终。 if command then commands fi
-
if - then - else 语句 (在上面的基础上柳暗花明)
# 如果怎么怎么样,就怎么怎么样,倘若还不行,那就那样那样。同样以 if 为始,以 fi 为终。 if command then commands else commands fi
-
嵌套 if (就是结构里面套结构,像套娃一样)
# 不多说,直接看结构 if command then commands else commands if commands then commands fi fi # 上面的简化版 if command then commands elif commands then commands fi fi # 还可以根据需要继续往上加
-
case 命令 (语法有点炫,不细说)
# 用于在一组可能的值中寻找特定的值 case variable in pattern1 | pattern2) commands1;; pattern3) commands2;; *) default commands;; esac
-
for 命令 (循环,可以读取列表、变量和命令中的值)
# 重复某个命令直到达到某条件,再说一遍,可以读取列表、变量和命令中的值 for var in list do commands done # 小知识:for 循环读取列表(变量&命令)中的值时,默认每个值都是用空格分割的,不细说了,自己遇到bug再去查吧啊啊
-
while 命令 (if-then语句和for循环的杂合体,其允许定义一个要测试的命令,然后循环执行一组命令,只要定义的测试命令返回的退出状态码是0)
# while命令的关键在于所指定的test command的退出状态码必须随着循环中运行的命令而改变 (什么是退出状态码?自己查啊啊) while test command do other commands done # 上面其实涉及到了一个test命令(与之同样功能的还有 [ ]),他可以判断除命令以外的内容,比如大小,字符等,判断的结果可以作为输入整合到循环中,详细的也是自己查吧呀
-
until 命令 (跟while命令恰好相反的逻辑,貌似用的不是很多)
# 不多说,看语法 until test command do other commands done
后面还有什么嵌套循环啊啥的,不过我觉得上面的7中命令学到家了,应该可以应付大部分在生信分析里面的应用了。
脚本怎么写和用
记得高中的时候,物理老师(也是班主任)在给我们讲解习题时有个有意思的套路:不管什么难题现在下面写个"答:",以示自己解决问题的决心,也是一种正向的心理暗示。脚本编写也是有套路的,不过总的来说还是比较简单。
对于简单的脚本(超级简单的那种),直接几个命令连在一起即可,中间用";"隔开。
对于更长更复杂的脚本,一般需要创建一个文本,并在里面编辑。这就涉及到了文本编辑器,比较常用和简单的一般有nano和vim,实在很简单,规则也容易理解,教程随手可得,不多说。
比如用vim创建了一个脚本之后,具体的语法(套路):
#!/bin/bash
# 一般来说,在脚本中凡是跟在井号字符后面的都是注释信息,方便自己和他人查看理解脚本内容的。并不会作为命令被执行,也不会显示在运行结果中,但是在脚本的第一行比较特殊,他不是注释信息,而是一种声明,声明是用什么写的脚本。所有的脚本第一行都得是他。
# 然后就可以根据自身需求写脚本了,虽然前面说的很简单,其实内容和坑还是很多的,得自己去体会,我只是列了个简单的大纲而已。比如变量使用,循环结构,命令替换,等等。。。
ok,脚本写完了,怎么让脚本开始工作呢?这有涉及到之前讲过的环境变量和相对路径、绝对路径了。方法有三:
- 直接绝对路径调用,这个肯定没问题
- 在创建脚本的当前目录下也可以用相对路径调用
- 每次写路径好麻烦的说,记不记得那个PATH变量,它是shell在查找命令是会历遍的目录,所以把脚本所在的路径添加到PATH变量里面,那样就可以每次在自己的home目录下任意地方调用了。
# 调用脚本的语法如下, 就是用点号(.)后面接脚本路径
./script
就这么多吧,应该有点感觉到了,剩下的就是狂练狂练了~