Linux小练习

在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹

zy@VM-0-15-ubuntu:~/tmp$ mkdir -p folder_{1..5}/folder_{1..5}
zy@VM-0-15-ubuntu:~$ tree tmp
tmp
├── folder_1
│   ├── folder_1
│   ├── folder_2
│   ├── folder_3
│   ├── folder_4
│   └── folder_5
├── folder_2
│   ├── folder_1
│   ├── folder_2
│   ├── folder_3
│   ├── folder_4
│   └── folder_5
├── folder_3
│   ├── folder_1
│   ├── folder_2
│   ├── folder_3
│   ├── folder_4
│   └── folder_5
├── folder_4
│   ├── folder_1
│   ├── folder_2
│   ├── folder_3
│   ├── folder_4
│   └── folder_5
└── folder_5
    ├── folder_1
    ├── folder_2
    ├── folder_3
    ├── folder_4
    └── folder_5

在第五题创建的每一个文件夹下面都 创建第二题文本文件 me.txt ,内容也要一样。

zy@VM-0-15-ubuntu:~$ vim txt.sh
#!/bin/bash
#
for i in {1..5};do
   cd ~/tmp/folder_$i
   for I in {1..5};do
      cd ~/tmp/folder_$i/folder_$I
      echo -e:"Go to: http://www.biotrainee.com/ \n I love bioinfomatics.\n And you ?">me.txt
   done
done
##按下Esc :wq
zy@VM-0-15-ubuntu:~$ tree tmp
tmp
├── folder_1
│   ├── folder_1
│   │   └── me.txt
│   ├── folder_2
│   │   └── me.txt
│   ├── folder_3
│   │   └── me.txt
│   ├── folder_4
│   │   └── me.txt
│   ├── folder_5
│   │   └── me.txt
│   └── me.txt
├── folder_2
│   ├── folder_1
│   │   └── me.txt
│   ├── folder_2
│   │   └── me.txt
│   ├── folder_3
│   │   └── me.txt
│   ├── folder_4
│   │   └── me.txt
│   ├── folder_5
│   │   └── me.txt
│   └── me.txt
├── folder_3
│   ├── folder_1
│   │   └── me.txt
│   ├── folder_2
│   │   └── me.txt
│   ├── folder_3
│   │   └── me.txt
│   ├── folder_4
│   │   └── me.txt
│   ├── folder_5
│   │   └── me.txt
│   └── me.txt
├── folder_4
│   ├── folder_1
│   │   └── me.txt
│   ├── folder_2
│   │   └── me.txt
│   ├── folder_3
│   │   └── me.txt
│   ├── folder_4
│   │   └── me.txt
│   ├── folder_5
│   │   └── me.txt
│   └── me.txt
└── folder_5
    ├── folder_1
    │   └── me.txt
    ├── folder_2
    │   └── me.txt
    ├── folder_3
    │   └── me.txt
    ├── folder_4
    │   └── me.txt
    ├── folder_5
    │   └── me.txt
    └── me.txt
#如何查看echo的帮助信息
/bin/echo --help

下载 http://www.biotrainee.com/jmzeng/igv/test.bed 文件,后在里面选择含有 H3K4me3 的那一行是第几行,该文件总共有几行。

zy@VM-0-15-ubuntu:~/tmp$ wget -c http://www.biotrainee.com/jmzeng/igv/test.bed
zy@VM-0-15-ubuntu:~/tmp$ grep -n H3K4me3 test.bed 
8:chr1  9810    10438   ID=SRX387603;Name=H3K4me3%20(@%20HMLE);Title=GSM1280527:%20HMLE%20Twist3D%20H3K4me3%20rep2%3B%20Homo%20sapiens%3B%20ChIP-Seq;Cell%20group=Breast;<br>source_name=HMLE_Twist3D_H3K4me3;cell%20type=human%20mammary%20epithelial%20cells;transfected%20with=Twist1;culture%20type=sphere;chip%20antibody=H3K4me3;chip%20antibody%20vendor=Millipore;  222 .   9810    10438   0,226,255

zy@VM-0-15-ubuntu:~/tmp$ wc -l test.bed 
10 test.bed

下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解压,查看里面的文件夹结构

zy@VM-0-15-ubuntu:~/tmp$ wget -c http://www.biotrainee.com/jmzeng/rmDuplicate.zip

zy@VM-0-15-ubuntu:~/tmp$ unzip rmDuplicate.zip 
zy@VM-0-15-ubuntu:~/tmp$ ls
rmDuplicate  rmDuplicate.zip  test.bed
zy@VM-0-15-ubuntu:~/tmp$ tree rmDuplicate
rmDuplicate
├── picard
│   ├── paired
│   │   ├── readme.txt
│   │   ├── tmp.header
│   │   ├── tmp.MarkDuplicates.log
│   │   ├── tmp.metrics
│   │   ├── tmp.rmdup.bai
│   │   ├── tmp.rmdup.bam
│   │   ├── tmp.sam
│   │   └── tmp.sorted.bam
│   └── single
│       ├── readme.txt
│       ├── tmp.header
│       ├── tmp.MarkDuplicates.log
│       ├── tmp.metrics
│       ├── tmp.rmdup.bai
│       ├── tmp.rmdup.bam
│       ├── tmp.sam
│       └── tmp.sorted.bam
└── samtools
    ├── paired
    │   ├── readme.txt
    │   ├── tmp.header
    │   ├── tmp.rmdup.bam
    │   ├── tmp.rmdup.vcf.gz
    │   ├── tmp.sam
    │   ├── tmp.sorted.bam
    │   └── tmp.sorted.vcf.gz
    └── single
        ├── readme.txt
        ├── tmp.header
        ├── tmp.rmdup.bam
        ├── tmp.rmdup.vcf.gz
        ├── tmp.sam
        ├── tmp.sorted.bam
        └── tmp.sorted.vcf.gz

进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚 生物信息学里面的SAM/BAM 定义是什么。

zy@VM-0-15-ubuntu:~$ cd ~/tmp/rmDuplicate/samtools/single
zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/single$ less -S tmp.sam

# sam文件是序列比对后的标准文件。bam文件是sam的二进制文件。bam所占的内存比较小。sam包括头部注释信息和比对信息,比对信息每行12列,以tab健分割。每列含义:

打开 后缀为BAM 的文件,找到产生该文件的命令。

zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/single$ samtools view tmp.rmdup.bam

zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/single$ ls
readme.txt  tmp.header  tmp.rmdup.bam  tmp.rmdup.vcf.gz  tmp.sam  tmp.sorted.bam  tmp.sorted.vcf.gz
# 找到tmp.header查看
zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/single$ tail -n 3 tmp.header 
@SQ SN:chrY LN:57227415
@SQ SN:chrY_KI270740v1_random   LN:37240
@PG ID:bowtie2  PN:bowtie2  VN:2.2.9    CL:"/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp"
# 其中CL字样处就是要找的命令

根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

# 头文件的 @SQ的注释信息就是参考基因组的注释信息。
zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/single$ grep -o -E "SN:chr[0-9]+|SN:chr[a-z A-Z]+" tmp.header|sort |uniq

zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/single$ grep -o -E "SN:chr[0-9]+|SN:chr[a-z A-Z]+" tmp.header|sort |uniq|wc -l
26

上面的后缀为BAM 的文件的第二列,只有 0 和 16 两个数字,用 cut/sort/uniq等命令统计它们的个数。

zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/single$ samtools view tmp.rmdup.bam |cut -f 2 |sort -n |uniq -dc
     16 0
     12 16

重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件,再次查看第二列,并且统计

zy@VM-0-15-ubuntu:~/tmp/rmDuplicate/samtools/paired$ samtools view tmp.rmdup.bam |cut -f 2 |sort -n |uniq -dc
      2 83
      2 97
      8 99
      7 147
      2 163

下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解压,查看里面的文件夹结构

zy@VM-0-15-ubuntu:~/tmp$ wget -c http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip

zy@VM-0-15-ubuntu:~/tmp$ ls -lh
total 2.4M
drwxrwxr-x 4 zy zy 4.0K Nov 12  2016 rmDuplicate
-rw-rw-r-- 1 zy zy 103K Nov 12  2016 rmDuplicate.zip
-rw-rw-r-- 1 zy zy 2.3M Oct  6  2016 sickle-results.zip
-rw-rw-r-- 1 zy zy 3.1K May 18  2017 test.bed

解压 sickle-results/single_tmp_fastqc.zip 文件,并且进入解压后的文件夹,找到 fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?

zy@VM-0-15-ubuntu:~/tmp/sickle-results$ unzip single_tmp_fastqc.zip 

zy@VM-0-15-ubuntu:~/tmp/sickle-results$ cd single_tmp_fastqc/
zy@VM-0-15-ubuntu:~/tmp/sickle-results/single_tmp_fastqc$ ls
fastqc_data.txt  fastqc.fo  fastqc_report.html  Icons  Images  summary.txt

y@VM-0-15-ubuntu:~/tmp/sickle-results/single_tmp_fastqc$ grep ^\>\> fastqc_data.txt |cat -n
     1  >>Basic Statistics  pass
     2  >>END_MODULE
     3  >>Per base sequence quality pass
     4  >>END_MODULE
     5  >>Per tile sequence quality pass
     6  >>END_MODULE
     7  >>Per sequence quality scores   pass
     8  >>END_MODULE
     9  >>Per base sequence content fail
    10  >>END_MODULE
    11  >>Per sequence GC content   warn
    12  >>END_MODULE
    13  >>Per base N content    pass
    14  >>END_MODULE
    15  >>Sequence Length Distribution  warn
    16  >>END_MODULE
    17  >>Sequence Duplication Levels   pass
    18  >>END_MODULE
    19  >>Overrepresented sequences warn
    20  >>END_MODULE
    21  >>Adapter Content   pass
    22  >>END_MODULE
    23  >>Kmer Content  warn
    24  >>END_MODULE

下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们的hg38.tss 文件的哪一行。(https://www.ncbi.nlm.nih.gov/gene/7157)

NCBI Reference Sequences (RefSeq).png

点击NM_001126113.2跳转到新页面


用genome brower来浏览.png
浏览界面.png
zy@VM-0-15-ubuntu:~/tmp$ grep NM_001126113 hg38.tss 
NM_001126113    chr17   7685550 7689550 1

解析hg38.tss 文件,统计每条染色体的基因个数。

zy@VM-0-15-ubuntu:~/tmp$ cat hg38.tss |head
NR_046018   chr1    9874    13874   0
NR_024540   chr1    27370   31370   1
NR_104148   chr7    64664083    64668083    0
NR_111960   chrX    44871175    44875175    0
NR_028458   chr14   92104621    92108621    1
NR_028459   chr14   92104621    92108621    1
NR_026818   chr1    34081   38081   1
NR_026820   chr1    34081   38081   1
NR_026822   chr1    34081   38081   1
NM_001005484    chr1    67091   71091   0

zy@VM-0-15-ubuntu:~/tmp$ cat hg38.tss |cut -f2 >chr.txt
zy@VM-0-15-ubuntu:~/tmp$ less chr.txt
wc -l chr.txt
wc -l chr2.txt 
less chr2.txt
zy@VM-0-15-ubuntu:~/tmp$ sort chr2.txt |uniq -dc
   6157 chr1
   2838 chr10
   3577 chr11
   3014 chr12
   1133 chr13
   1982 chr14
   2377 chr15
   2696 chr16
   3794 chr17
    883 chr18
   5880 chr19
   4090 chr2
   1692 chr20
    895 chr21
   1410 chr22
   3395 chr3
   2277 chr4
   2821 chr5
   5782 chr6
   2785 chr7
   2221 chr8
   2310 chr9
      2 chrM
     32 chrUn
   2561 chrX
    414 chrY

解析hg38.tss 文件,统计NM和NR开头的序列,了解NM和NR开头的含义。

zy@VM-0-15-ubuntu:~/tmp$ grep -o -E "NM|NR" hg38.tss |sort |uniq -dc
  51064 NM
  15954 NR
# NM指的是转录组产物的序列; NR指的是非编码的转录子序列
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,302评论 5 470
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,232评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,337评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,977评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,920评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,194评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,638评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,319评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,455评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,379评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,426评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,106评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,696评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,786评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,996评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,467评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,043评论 2 341

推荐阅读更多精彩内容

  • 一、在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。 mkdir –p 1/2/3...
    Hocchan_7阅读 4,207评论 1 50
  • 学完了理论,开始实践一下吧主要参考了jimmy提供的练习题 一、在主目录下面创建/tmp文件夹,并且使其中包含 1...
    刘小泽阅读 2,733评论 0 12
  • 一、在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。 2、在创建好的文件夹下面,比...
    labrador1986阅读 759评论 0 0
  • Linux课程整理 1、学习资料 马哥linux视频,Linux 命令行与Shell脚本编程大全 2、系统认知 看...
    董高超_85d0阅读 2,177评论 2 24
  • 简介: 三姐妹安雨萱,安雨潇,杨晓,出生在小城镇,却立志要到大城市打拼,希望能拥有属于自己的一片天地,在爱情,工作...
    琉璃花楹阅读 582评论 5 14