使用Hisat2, Bowtie, Bowtie2和BWA对PE150进行比对-细菌转录组实战

一、基因组下载及索引构建

1.1下载基因组

我下载的是支原体基因组,http://bacteria.ensembl.org/index.html
Mycoplasma hyorhinis
Mycoplasma arginini

1.2 软件安装

wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh#亲测可用
bash Miniconda3-latest-Linux-x86_64.sh
conda install -c bioconda hisat2
conda install -c bioconda bowtie
conda install -c bioconda bowtie2
conda install -c bioconda bwa

1.3 建立索引文件

参考:https://www.jianshu.com/p/89b35626befa

1.3.1 Hisat2

hisat2-build -p 2 Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel.fa Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel

-p 线程
运行完成后,生成后缀名为ht2的8个文件。
使用帮助:

hisat2-build --usage

1.3.2 Bowtie

bowtie-build --threads 2 Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel.fa Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel

--threads,线程
运行完成后,生成后缀名为ebwt的6个文件。
使用帮助:

bowtie-build --usage

1.3.3 Bowtie2

bowtie2-build --threads 2 Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel.fa Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel

--threads,线程
运行完成后,生成后缀名为bt2的6个文件。
使用帮助:

bowtie2-build --usage

1.3.4 BWA

bwa index -p Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel
Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel.fa

-p,prefix of the index,指定生成index的前缀名。
运行完成之后,会生成后缀名为bwt,pac,ann,amb,sa 的5个文件。
使用帮助:

bwa index

二、比对

比对文件含有58370545对reads,或者说58370545条fragment,双末端测序。

2.1 Hisat2

ls *1.clean.fq.gz |while read id
do
hisat2 -t -q -p 2 -X 500 \
-x /media/luozhixin/本地磁盘/bioinfomatics/INDEX/hisat2/Mycoplasma_hyorhinis_sk76/Mycoplasma_hyorhinis_sk76.ASM3136 \
-1 $id -2 ${id%_*}_2.clean.fq.gz 2>${id%_*}.hisat2.log \
|samtools sort -@ 2 -o ${id%_*}_ht2p.bam
done

-t,输出载入index和reads比对所花的时间
-q,输入为fastq文件
-p,指定线程数
-X,指定fragment的最大长度(最小长度为-I),默认500,设置以后,不支持gap比对,-X和-I数值相差越大,运行越慢
-x,指定索引文件
-1,指定双端测序中第一个文件
-2,指定双端测序中第二个文件
-S,指定输出sam文件的文件名

比对结果

Time loading forward index: 00:00:00
Time loading reference: 00:00:00
Multiseed full-index search: 00:40:12
58370545 reads; of these:
  58370545 (100.00%) were paired; of these:
    46328683 (79.37%) aligned concordantly 0 times
    12021906 (20.60%) aligned concordantly exactly 1 time
    19956 (0.03%) aligned concordantly >1 times
    ----
    46328683 pairs aligned concordantly 0 times; of these:
      4284 (0.01%) aligned discordantly 1 time
    ----
    46324399 pairs aligned 0 times concordantly or discordantly; of these:
      92648798 mates make up the pairs; of these:
        92458697 (99.79%) aligned 0 times
        188110 (0.20%) aligned exactly 1 time
        1991 (0.00%) aligned >1 times
20.80% overall alignment rate
Time searching: 00:40:13
Overall time: 00:40:13

2.2 Bowtie

-n比对模式

ls *1.clean.fq.gz |while read id
do
bowtie -t -p 2 -q -n 3 -l 28 -X 500 -a --best --strata /media/luozhixin/0000678400004823/Indexs/bowtie/Mycoplasma_hyorhinis_sk76/Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel \
-1 $id -2 ${id%_*}_L1.2.clean.fq.gz \
2>${id%_*}.bowtie.log\
|samtools sort -@ 2 -o ${id%%.*}_btp.bam
done

-t ,打印每个阶段花费的时间
-p,线程数(或--threads)
-n,-n比对模式,种子区错配的碱基数
-l,左侧至高质量种子区的碱基数,设置越大运行越快
-X,指定fragment的最大长度(最小长度为-I),默认为250
-q,指定输入为fastq文件(-f,指定输入为fasta文件)
-a --best --strata,有多个比对结果时,只报告所有比对结果中匹配度最高的。
-1,指定双端测序中第一个文件
-2,指定双端测序中第二个文件(单端数据用--12)
-S,指定输出sam文件的文件名

比对结果

Time loading reference: 00:00:00
Time loading forward index: 00:00:00
Time loading mirror index: 00:00:00
Seeded quality full-index search: 01:35:23
# reads processed: 58370545
# reads with at least one reported alignment: 10944515 (18.75%)
# reads that failed to align: 47426030 (81.25%)
Reported 10967021 paired-end alignments
Time searching: 01:35:24
Overall time: 01:35:24

-v比对模式

ls *1.clean.fq.gz |while read id
do
bowtie -t -p 2 -q -v 3 -X 500 -a --best --strata \
/media/luozhixin/0000678400004823/Indexs/bowtie/Mycoplasma_hyorhinis_sk76/Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel \
-1 $id -2 ${id%_*}_L1.2.clean.fq.gz  \
2>${id%_*}.bowtie.log \
|samtools sort -@ 2 -o ${id%%.*}_btp.bam
done

-t ,打印每个阶段花费的时间
-p,线程数(或--threads)
-v,-v比对模式,比对不超过v个碱基错配
-X,指定fragment的最大长度(最小长度为-I),默认为250
-q,指定输入为fastq文件(-f,指定输入为fasta文件)
-a --best --strata,有多个比对结果时,只报告所有比对结果中匹配度最高的。
-1,指定双端测序中第一个文件
-2,指定双端测序中第二个文件(单端数据用--12)
-S,指定输出sam文件的文件名

比对结果

2.3 Bowtie2

ls *1.clean.fq.gz |while read id
do
bowtie2 -t -p 2 -q --fast-local -X 500 -x /media/luozhixin/0000678400004823/Indexs/bowtie2/Mycoplasma_hyorhinis_sk76/Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel \
-1 $id -2 ${id%_*}_L1.2.clean.fq.gz \
2>${id%_*}.bowtie2.log\
|samtools sort -@ 2 -o ${id%%.*}_bt2p.bam
done

-t ,打印每个阶段花费的时间
-p,线程数(或--threads)
-q,指定输入为fastq文件,默认。(-f,指定输入为fasta文件)
-X,指定fragment的最大长度(最小长度为-I),默认为500
--fast-local,局部快速比对
-x 指定索引文件
-1,指定双端测序中第一个文件
-2,指定双端测序中第二个文件(单端数据用-U)
-S,指定输出sam文件的文件名

比对结果:

Time loading reference: 00:00:00
Time loading forward index: 00:00:00
Time loading mirror index: 00:00:00
Multiseed full-index search: 02:18:18
58370545 reads; of these:
  58370545 (100.00%) were paired; of these:
    45474574 (77.91%) aligned concordantly 0 times
    12836595 (21.99%) aligned concordantly exactly 1 time
    59376 (0.10%) aligned concordantly >1 times
    ----
    45474574 pairs aligned concordantly 0 times; of these:
      11476 (0.03%) aligned discordantly 1 time
    ----
    45463098 pairs aligned 0 times concordantly or discordantly; of these:
      90926196 mates make up the pairs; of these:
        90861721 (99.93%) aligned 0 times
        63533 (0.07%) aligned exactly 1 time
        942 (0.00%) aligned >1 times
22.17% overall alignment rate
Time searching: 02:18:18
Overall time: 02:18:18

2.4 BWA

ls *1.clean.fq.gz |while read id
do
bwa mem -t 2 /media/luozhixin/0000678400004823/Indexs/BWA/Mycoplasma_hyorhinis_sk76/Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel \
$id  ${id%_*}_L1.2.clean.fq.gz \
2>${id%_*}.bwa.log \
|samtools sort -@ 2 -o ${id%%.*}_bwap.bam
done

-t,number of threads
-o,指定输出sam文件名

比对结果:

#都比对上2或3
samtools fasta -@ 2 -f 3 bwa.sam|wc -l
[M::bam2fq_mainloop] discarded 0 singletons
[M::bam2fq_mainloop] processed 27708394 reads
55416788
#都没比对上12或13
samtools fasta -@ 2 -f 12 bwa.sam|wc -l
[M::bam2fq_mainloop] discarded 0 singletons
[M::bam2fq_mainloop] processed 88864414 reads
177728828
samtools fasta -@ 2 -f 4 bwa.sam|wc -l
[M::bam2fq_mainloop] discarded 0 singletons
[M::bam2fq_mainloop] processed 88938842 reads
177877684
samtools fasta -@ 2 -F 4 bwa.sam|wc -l
[M::bam2fq_mainloop] discarded 0 singletons
[M::bam2fq_mainloop] processed 27802248 reads
55604496

配对reads都比对上序列:27708394条,13854197对,23.7349%;
配对reads都没比对上序列:88864414条,44432207对,76.1209%;
都未比对上序列+单未必对上序列:88938842条,44469421对,76.1846%;
单比对上序列=单未必对上序列:27802248-27708394=93854条,0.080395%。

三、提取未比对上的序列

ls *.bam |while read id
do
samtools fasta -@ 2 -f 4 -N $id -1 ${id%_*}_1.fa -2 ${id%_*}_2.fa -s ${id%_*}_single.fa;
gzip ${id%_*}_1.fa ${id%_*}_2.fa ${id%_*}_single.fa;
done

四、重新比对未比对上序列

4.1 Hisat2

ls *1.fa.gz |while read id
do
hisat2 -t -f -p 2 -X 800 -x /media/luozhixin/0000678400004823/Indexs/Hisat2/H.sapiens/grch38/genome \
-1 $id -2 ${id%_*}_2.fa.gz \
2>${id%_*}.ht2.log\
|samtools sort -@ 2 -o ${id%%.*}_ht2p.bam
done

-t,输出载入index和reads比对所花的时间
-f,输入为fasta文件
-p,指定线程数
-X,指定fragment的最大长度(最小长度用-I指定)
-x,指定索引文件
-1,指定双端测序中第一个文件
-2,指定双端测序中第二个文件
-S,指定输出sam文件的文件名

4.2 bowtie2

ls *1.clean.fq.gz |while read id
do
bowtie2 -t -p 2 -q --fast -X 500 \
-x /media/luozhixin/0000678400004823/Indexs/bowtie2/Mycoplasma_hyorhinis_sk76/Mycoplasma_hyorhinis_sk76.ASM31363v1.dna.toplevel \
-1 $id -2 ${id%_*}_L1.2.clean.fq.gz \
2>${id%_*}.bowtie2.log\
|samtools sort -@ 2 -o ${id%%.*}_bt2p.bam
done

结果

33142842 reads; of these:
  33142842 (100.00%) were unpaired; of these:
    16404150 (49.50%) aligned 0 times
    11456205 (34.57%) aligned exactly 1 time
    5282487 (15.94%) aligned >1 times
50.50% overall alignment rate
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容