NOVOPlasty是一个小型环状基因组的软件,这意味着这个软件可以组装线粒体基因组和叶绿体基因组。这个软件是一个perl的脚本,直接就可以运行,软件需要一个seed序列,我一般会放一个CO1的序列,让它在这片段的基础上延伸。
运行命令
perl ~/software/NOVOPlasty/NOVOPlasty-master/NOVOPlasty4.3.1.pl -c config_CO1.txt
这里需要一个config的配置文件
以下是作者给的例子
Project:
-----------------------
Project name = Test
Type = mito
Genome Range = 12000-22000
K-mer = 33
Max memory =
Extended log = 0
Save assembled reads = no
Seed Input = /path/to/seed_file/Seed.fasta
Extend seed directly = no
Reference sequence = /path/to/reference_file/reference.fasta (optional)
Variance detection =
Chloroplast sequence = /path/to/chloroplast_file/chloroplast.fasta (only for "mito_plant" option)
Dataset 1:
-----------------------
Read Length = 151
Insert size = 300
Platform = illumina
Single/Paired = PE
Combined reads =
Forward reads = /path/to/reads/reads_1.fastq
Reverse reads = /path/to/reads/reads_2.fastq
Store Hash =
Heteroplasmy:
-----------------------
MAF =
HP exclude list =
PCR-free =
Optional:
-----------------------
Insert size auto = yes
Use Quality Scores = no
Output path =
这里边需要我们根据测序返回的结果更改read length, Insert size, platform and Single/ Paired选项。
注意点
- 这个软件不能识别压缩文件,也就是说不支持gz格式的reads,我觉得这点不够人性化。
- 绝对不需要trim 或者quality 你的reads,输入最原始的raw reads就好了,只需要去掉测序的接头,不过这个测序公司一般给你去掉了的。
- 为了软件组装的精确性,还可以放一个reference sequence,就是已经发布的转录组的fasta文件,选择近缘种的,当然如果不放也是可以组装的
- k-mer 的默认值是33, 作者说可以按照reads的长度进行适当调整,低于90bp就减少,高于101bp就增加,看了挺多前人上传的config,都是选用了39的参数,我的raw reads是150bp,最后组装出来和33的区别不大
- 最后请检查这个软件的结果文件,还是有挺多的gap区域的,尤其尤其是在D loop的区域,我碰到这种问题一般会多用几个软件,然后各自的组装结果align以下,补齐gap的区域。
祝大家组装顺顺利利!
Reference:
https://github.com/ndierckx/NOVOPlasty
http://blog.sciencenet.cn/blog-3433349-1243777.html