MCScanX:分析基因组共线性

说在前面:
官网http://chibba.pgml.uga.edu/mcscan2/index.php信息很全面,有示例代码/Manual手册,你值得拥有。以下内容基本出自官网教程,现在你可以自行打开官网学习了~

安装

只能在Mac OS (via X11) or Linux systems上执行。Linux systems,需要JDKlibpng (一般都有)

  1. 官网下载压缩包

  2. Then simply put MCscanX.zip into a directory and run:

unzip MCscanX.zip
cd MCScanX
make

运行示例文件

分析拟南芥与葡萄的共线性

输入文件需要有:at_vv.gff ; at_vv.blast 【在 data 文件夹中】

In MCScanX package directory, type

 ./MCScanX data/at_vv

./ 表示当前目录;data是输入文件所在目录,注意gff和blast文件名保持一致

3秒搞定

Pairwise collinear blocks written to data/at_vv.collinearity [17.348 seconds elapsed] Tandem pairs written to data/at_vv.tandem

上述两个文件at_vv.collinearity at_vv.tandem 就是输出文件,默认输出到data文件夹

Writing multiple syntenic blocks to HTML files

除此之外,还输出个 at_vv.html文件夹,里面就是屏幕上有输出的html文件。

一切顺利,安装成功


准备输入文件

先看看拟南芥-葡萄的示例文件格式

at_vv.gff

提供基因的位置信息,两个4列的 gff文件 合并而来

#head
 at3  AT3G19630  6818676  6820674
 at5  AT5G11220  3577057  3577854
 at2  AT2G29110  12506880  12510552
#tail
 vv1  GSVIVT01012140001  1098524  1102524
 vv18  GSVIVT01034900001  16234068  16271170
 vv8  GSVIVT01025554001  14085153  14089377

at_vv.blast

提供比对信息,有AT-AT;AT-VV;VV-AT;VV-VV。出现4种比对的原因是把at和vv的蛋白文件合并成了一个,然后既做database又做query,进行blastp比对。

注意:blast文件中的基因名要与gff文件中的基因名对应!!gff中有且仅有一个。

基因id提前检查好,不然就全盘皆输从头再来……


xyz.blast文件

(个人需求,一般不用这步)批量修改基因id,区分2个物种

sed -i 's/evm.model.Contig/HHGevm.model.Contig/' HHG.pep
sed -i 's/evm.model.Contig/BHGevm.model.Contig/' BHG.pep

将两个物种的蛋白文件合并

cat HHG.pep.fa BHG.pep.fa >> twoHG.fa

将该蛋白文件既做database,又做query,进行blastp

blastp的m8输出格式,也就是blast+版本的 -outfmt 6

blast版本

 formatdb -i database_file -p T
 #(F表示核酸库 T表示蛋白库)
 blastall -i query_file -d database –p blastp –e 1e-5 –b 5 –v 5 –m 8 –o xyz.blast

解释2个参数——
-b : 显示的比对结果的最大数目,缺省值250
-v : 单行描述(one-line description)的最大数目,缺省值500

blast+版本

 makeblastdb -in database.fa -dbtype prot -out db_name -parse_seqids

-dbtype 后接序列类型,nucl为核酸,prot为蛋白
-parse_seqids 推荐加上
-out 后接数据库名
-logfile 日志文件,如果没有默认输出到屏幕 (-logfile xxx.log)

 blastp -query query.fa -db db_name -out xyz.blast -evalue 1e-5 -outfmt 6 -num_alignments 5  -num_threads 16

-num_alignments 显示比对数Default = 250 (相当于blast版本的 -b 5)
-num_descriptions:单行描述的最大数目 default=50 -num_threads:线程

得到 HHG_BHG.blast

xyz.gff文件

要求:
sp# gene starting_position ending_position

sp is the two-letter short name for the species; # is the chromosome number. (For example, the second chromosome of Arabidopsis thaliana should be denoted as at2.)
第一列表示物种和染色体号。如拟南芥2号染色体 at2 . (不是2个字母也ok啦)
第二三四列分别是 基因名 起始位点 终止位点

gff格式介绍:

https://www.jianshu.com/p/b26c285bd027

使用awk修改,根据自己的文件以及自己的需求

 awk 'BEGIN{OFS="\t"} $3 == "gene" {split($9,x,";");split(x[1],y,"=");id=y[2];gsub("\"","",id);print "HHG"$1,id,$4,$5}' HHG.gff > HHG1.gff
 ​
 awk 'BEGIN{OFS="\t"} $3 == "gene" {split($9,x,";");split(x[1],y,"=");id=y[2];gsub("\"","",id);print "BHG"$1,id,$4,$5}' BHG.gff > BHG1.gff
 ​
 #生成2份整理过的GFF,然后修改id,再合并【个人需求,略】

'>' 直接把内容生成到指定文件,会覆盖源文件中的内容
'>>' 尾部追加,不会覆盖掉文件中原有的内容。

参考:
https://www.plob.org/article/11373.html
https://www.jianshu.com/p/8373e50722f6


MCScanX分析共线性

注:如果是多个物种,将所有需要的blastp文件合并为一个xyz.blast,物种的gff文件合并成一个 xyz.gff

将准备好的 blast gff文件放入data文件夹 使用 mv 移动

进入MCScanx文件夹

接下来就跟示例一样操作了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345