RepeatModeler安装及使用

细节参阅RepeatModele官方文档:http://www.repeatmasker.org/RepeatModeler/
RepeatMasker和RepeatModele主页:http://www.repeatmasker.org

RepeatMasker是基因组重复序列检测的常用工具。一般依赖于已有的重复序列参考库Repbase作同源预测。对于绝大部分目标真核物种,都收录在Repbase中。有时候Repbase注释重复区的效果不是很好,这种情况下可考虑执行重复序列的从头预测,即通过当前的全基因组序列,训练重复序列集构建本地repeat library,再通过RepeatMasker注释重复序列。其中,与RepeatMasker配套的RepeatModeler,可以实现。

RepeatModeler本地配置

在正式安装RepeatModeler主程序之前,需要提前配置好其依赖的工具。
1-3、RepeatMasker、TRF、序列搜索引擎

见前文(RepeatMasker的安装与使用)(https://www.jianshu.com/p/ffdbedae80fa)。
RepeatMasker的安装,同时建立在TRF(Tandem Repeats Finder)和相关的序列搜索引擎已经配置好的基础上。因此,对于这3种工具的配置,在前文介绍RepeatMasker安装时已经作了说明。

4、RECON(从头预测功能实现的核心组件)

conda install RECON    #自动配置在conda环境中,例如“/home/my/software/Miniconda3/bin”

5、RepeatScout(从头预测功能实现的核心组件)
在github获取后编译安装。

#github:https://github.com/mmcco/RepeatScout
git clone https://github.com/mmcco/RepeatScout.git
cd RepeatScout
chmod 755 *
make
 
#添加环境变量,例如RepeatScout安装在“/home/my/software/RepeatScout”
export PATH=/home/my/software/RepeatScout:$PATH

6、NSEG
下载后编译安装。

#NSEG:ftp://ftp.ncbi.nih.gov/pub/seg/nseg/
mkdir NSEG && cd NSEG
wget ftp://ftp.ncbi.nih.gov/pub/seg/nseg/*
chmod 755 *
make
 
#添加环境变量,例如NSEG安装在“/home/my/software/NSEG”
export PATH=/home/my/software/NSEG:$PATH

7、RepeatModeler
前面的工具配置好后,源码编译RepeatModeler,和RepeatMasker安装过程很像,需要一步步指定所依赖的环境。

#RepeatModeler
wget http://repeatmasker.org/RepeatModeler/RepeatModeler-open-1.0.11.tar.gz
tar xzvf RepeatModeler-open-1.0.11.tar.gz
 
cd RepeatModeler-open-1.0.11
chmod -R 755 *
perl ./configure

“./configure”执行后,根据提示信息一步步来。

首先是perl环境,推荐使用/usr/bin环境下的perl,即系统perl,使用conda中的perl后面总出问题。回车继续。

RepeatModeler安装路径,默认自动指定安装路径,回车继续。

指定RepeatMasker的安装路径,回车继续。

指定RECON的安装路径,回车继续。

指定RepeatScout的安装路径,回车继续。

指定NSEG的安装路径,回车继续。

指定TRF的安装路径(这个同时也是RepeatMasker安装必需的),回车继续。

最后是序列搜索引擎(这个同时也是RepeatMasker安装必需的),例如我们这里选择2,指定RMBlast主程序所在路径,回车返回主界面后,再选择3,就完成了。

你也可以指定多种序列搜索引擎后,再选择3,不过实际运行时,一次只能选择一种序列比对方式。

终于把一些列的环境添加完了,最后配置环境变量。

#例如,我的RepeatModeler安装路径是在“/home/my/software/RepeatModeler-open-1.0.11”
export PATH=/home/my/software/RepeatModeler-open-1.0.11:$PATH
 
#这时候没啥问题的话应该可以看到帮助界面了
RepeatModeler -h

RepeatModeler使用测试

#建立基因组索引
BuildDatabase -name Silkworm -engine ncbi genomic.fna

#构建 library,这步非常耗时,好像提升线程也没啥用,#获得两个主要文件,*-families.fa、*-families.stk
RepeatModeler -pa 4 -database Silkworm -engine ncbi

#下方作为测试,只使用了主要的参数,其中通过 -lib 参数指定本地库
RepeatMasker -pa 4 -gff -lib Silkworm-families.fa -dir repeat2 genomic.fna

fasta文件“-families.fa”为训练得到的共识重复序列,序列id后会标注它属于哪种重复序列家族,若无法归类则用标注为“Unkown”。
-families.stk”为种子联配(Seed alignments)文件,是Dfam兼容的Stockholm格式,可以使用RepeatModeler 安装路径中自带的工具“RepeatModeler/util/dfamConsensusTool.pl”上传到Dfam_consensus数据库中。
详见:http://www.repeatmasker.org/RepeatModeler/dfamConsensusTool

查看输出结果“*.tbl”。

更新:

RepeatModeler 预测基因组重复序列,为下一步的RepeatMasker建立重复序列数据库
#建库,利用rice 一个实例fasta文件
BuildDatablase –name ricedb –engine ncbi  rice.sample.2.fa

#参数说明
-name <database name>
        The name of the database to create.
-engine <engine name>
        The name of the search engine we are using. I.e abblast/wublast or rmblast.
-dir <directory>
        The name of a directory containing fasta files to be processed. The
        files are recognized by their suffix. Only *.fa and *.fasta files
        are processed.
-batch <file>
        The name of a file which contains the names of fasta files to
        process. The files names are listed one per line and should be fully
        qualified.

RepeatModeler -database ricedb  -pa 5

#参数说明
-database
        The name of the sequence database to run an analysis on. This is the
        name that was provided to the BuildDatabase script using the "-name"
        option.
-pa #
        Specify the number of parallel search jobs to run. RMBlast jobs will
        use 4 cores each and ABBlast jobs will use a single core each. i.e.
        on a machine with 12 cores and running with RMBlast you would use
        -pa 3 to fully utilize the machine.
-recoverDir <Previous Output Directory>
        If a run fails in the middle of processing, it may be possible
        recover some results and continue where the previous run left off.
        Simply supply the output directory where the results of the failed
        run were saved and the program will attempt to recover and continue
        the run.

(1.1)RepeatModeler结果文件

  • consensi.fa:自身比对找到的一致性序列
  • consensi.fa.classified:重复序列分类结果,“#”后面的字符串是分类结果
  • consensi.fa.masked:屏蔽后的序列,不太使用

(2)RepeatMasker;屏蔽DNA序列中转座子或者低复杂度重复序列,输出的序列把已知的重复序列都屏蔽成N或X,并给出相应的位置和统计信息

#将上一步的结果文件(自动生成,以“RM”开头)里面的consensi.fa.classified为libirary,对参考序列进行序列屏蔽
#运行
RepeatMasker -nolow  -e ncbi -pa 5 -norna -dir ./  -lib consensi.fa.classified rice.sample.fa

#重要参数
-nolow. (不屏蔽低复杂序列,担心屏蔽后使得基因结构受到影响)
        Does not mask low_complexity DNA or simple repeats
-lib [filename] 自己制定的重复序列库
        Allows use of a custom library (e.g. from another species)
 -e(ngine) [crossmatch|wublast|abblast|ncbi|rmblast|hmmer]
        Use an alternate search engine to the default.
-pa(rallel) [number]
        The number of sequence batch jobs [50kb minimum] to run in parallel.
-norna
        Does not mask small RNA (pseudo) genes
-dir [directory name] 输出文件位置
        Writes output to this directory (default is query file directory,
        "-dir ." will write to current directory).
-gff
        Creates an additional Gene Feature Finding format output

(2.1)RepeatMasker输出结果

*.out:重复序列详细比对结果
*.masked:屏蔽后的序列
*.tbl:重复序列统计文件
*.cat:和out差不多

(2.2)*.out 每一列含义

第一列:比对分值,SW score
第二列:替代率 perc div.
第三列:碱基缺失百分率
第四列:在重复序列中碱基缺失百分率
第五列:query sequence
第六列:查询序列起始位置
第七列:查询序列终止位置
第八列:查询区域中超出比对区域碱基的数目,也就是没有比对上的碱基数
第九列:+/-(C)
第十列:比上的重复序列名称,类型命名
第十一列:比上重复序列的分类,和repeatmolder 中*.classed 是一样的
第十二列:比上的在数据库中的起始位置
第十三列:比上的在数据库中的终止位置
第十四列:在第十列上超出比对区域碱基的数目,也就是没有比对上的碱基数
第十五列:比对区域的ID,随机给的

(2.3)最后将out文件可转为GFF文件,即完成基因组重复序列的鉴定

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容