序列比对软件 MUMmer 结果可读化处理(四)

关于该软件的计算可选参数以及结果文件的解读,见前三篇分享:

序列比对软件 MUMmer 快速上手(一)

序列比对软件 MUMmer 高级使用(二)

序列比对软件 MUMmer 结果文件解读(三)

本篇来介绍一下获得的 <prefix> .delta 如何进一步处理分析;

delta-filter

delta-filter 用于操作 <prefix>.delta 文件并根据各种选择所需要的 alignments;

常用命令:

delta-filter [options] <delta file> > <filtered delta file>

可选的参数有(部分展示):

-g   #1对1全局匹配,不允许重排;

-i   #最小的相似度(Set the minimum alignment identity),可设 [0,100],默认为0;

-l   #最小的匹配长度,默认为0;

-q   #仅保留每个 query 在 reference 上的最佳位置,允许多条 query 在 reference 上重叠;

-r   #仅保留每个 reference 在 query 上的最佳位置,允许多条 reference 在 query 上重叠;

-u   #最小的联配唯一度(Set the minimum alignment uniqueness),可设 [0,100],默认0;

-o   #最大重叠度,针对 -r 和 -q 设置。 [0,100],默认100;

其中,-g 选项可以确定最长的相互一致的匹配集,而 -r 和 -q 选项只要求匹配分别与 ref 或 qry 一致的数据集;不同的是,-g 不允许倒位和异位,而 -r 和 -q 允许;

选项 -u 可以保留那些以唯一顺序锚定的对齐;

输出文件的格式与输入文件相同,详见:序列比对软件 MUMmer 结果文件解读(三)

show-aligns

可以展示命令行上两个特定序列的 pair-wise alignment,便于识别错误的确切位置以及寻找两个序列之间的 SNPs;

常用命令:

show-aligns [options] <delta file> <IdR> <IdQ>

<ldR> 为期望 ref 序列的 FastA header,<IdQ> 为期望 qry 序列的 FastA header,将显示这两个序列之间的所有对齐,输出将被输出至 stdout。

可选的参数有:

-q   #将 alignments 按 query 的开始坐标排序;

-r   #将 alignments 按 reference 的开始坐标排序;

-w   #设置输出的屏幕宽度,默认为 60;

-x   #设置 alignment 的矩阵类型,1 [BLOSUM 45], 2 [BLOSUM 62] or 3 [BLOSUM 80] (default 2)

其中,-x 选项只适用于氨基酸对齐,只影响错误标记,不影响对齐;

show-coords

解析 NUCmer 的 delta alignment output 文件,并展示每个对齐的位置、一致性百分比等信息,是分析 delta file 最常用的工具之一;

常用命令:

show-coords [options] <delta file>

可选参数有:

-b   #只显示对齐区域的非冗余位置的简短输出;

-B   #将输出切换为 btab 格式;

-T   #将输出切换为制表符分隔的格式;

-H   #省略output header;

-c   #在输出中包括percent coverage 列;

-d   #在输出中包含alignment direction / reading frame;

-g   #只显示包括在the Longest Ascending Subset中的对齐,即全局对齐;建议与-r或-q选项一起使用;不支持circular序列;

-I (大写i)   #设置显示的minimum percent identity;

-L   #设置显示的最小对齐长度;

-o   #注释两个序列之间的最大对齐;

-q   #按查询对输出行进行排序;

-r   #按参考对输出行进行排序;

在没有使用 -H 或 -B 选项时,输出会给每一列添加一个 header tag,如下所示:

[S1] start of the alignment region in the reference sequence 

[E1] end of the alignment region in the reference sequence 

[S2] start of the alignment region in the query sequence 

[E2] end of the alignment region in the query sequence 

[LEN 1] length of the alignment region in the reference sequence 

[LEN 2] length of the alignment region in the query sequence 

[% IDY] percent identity of the alignment 

[% SIM] percent similarity of the alignment (as determined by the BLOSUM scoring matrix) 

[% STP] percent of stop codons in the alignment 

[LEN R] length of the reference sequence 

[LEN Q] length of the query sequence 

[COV R] percent alignment coverage in the reference sequence 

[COV Q] percent alignment coverage in the query sequence 

[FRM] reading frame for the reference and query sequence alignments respectively 

[TAGS] the reference and query FastA IDs respectively

当使用 -B 选项时,结果会由 12 个 Tab 分隔的列组成,详细如下:

[1] query sequence ID 

[2] date of alignment 

[3] length of query sequence 

[4] alignment type 

[5] reference file 

[6] reference sequence ID 

[7] start of alignment in the query 

[8] end of alignment in the query 

[9] start of alignment in the reference 

[10] end of alignment in the reference 

[11] percent identity 

[12] percent similarity 

[13] length of alignment in the query 

[14] 0 for compatibility 

[15] 0 for compatibility 

[16] NULL for compatibility 

[17] 0 for compatibility 

[18] strand of the query 

[19] length of the reference sequence 

[20] 0 for compatibility 

[21] and 0 for compatibility

结果将输出到 stdout;

其中,一些描述的列不会出现在核苷酸比对结果中,如相似度百分比;

show-snps

顾名思义,该程序可以报道输出文件中的多态性位点信息,其编目了 delta file 中的 SNPs 和插入/缺失信息,每行一个多态性位点信息;

常用命令:

show-snps [options] <delta file>

结果将被输出到 stdout。

可选参数如下:

-C   #不输出从ambiguous mapping 的比对结果中得到的 SNPs;

-H   #不输出 header;

-I (大写i)   #不输出 indels;

-l  #输出结果中包含序列长度信息;

-q   #依据 query ID 和 SNP 位置信息进行排序;

-r   ##依据 ref ID 和 SNP 位置信息进行排序;

-T  #切换至制表符分隔的格式;

-x   #在输出中包含 SNPs 上下 x 个字符,默认为 0;

show-tiling

show-tiling attempts to construct a tiling path out of the query contigs as mapped to the reference sequences. Given the delta alignment information of a few long reference sequences and many small query contigs, show-tiling will determine the best mapped location of each query contig. 

略,详见 manual of MUMmer

show-diff

为量化两个基因组的宏观差异,该程序将比对的 breakpoints 进行分类,以一个标准的,未过滤的 delta file 作为输入文件,确定两个序列集之间的最佳 mapping,并报告该 mapping 中的 breaks;

常用命令:

show-diff [options] <deltafile>

输出为 stdout,每一行输出一个 breakpoint,每行前 5 列分别表示seq ID, feature type, feature start, feature end, and feature length;

可选参数有:

-f    #Output diff information as AMOS features

-H   #Do not show header

-q   #Show diff information for queries

-r   #Show diff information for references (default)

dnadiff

该脚本是对 nucmer 的包装,使用默认参数进行比对,并运行许多 nucmer 的助手脚本来处理输出,并报告比对的统计数据,SNPs,breakpoints 等;它的目的是评价两个高度相似序列集的序列和结构相似性。

常用命令:

dnadiff [options] <reference> <query>

或者 dnadiff [options] -d <delta file>

可选参数有:

-d   # Provide precomputed delta file for analysis

-p   # Set the prefix of the output files (default "out")

输出文件有多个,包括:

OUTPUT:

.report - Summary of alignments, differences and SNPs

.delta - Standard nucmer alignment output

.1delta - 1-to-1 alignment from delta-filter -1

.mdelta - M-to-M alignment from delta-filter -m

.1coords - 1-to-1 coordinates from show-coords -THrcl .1delta

.mcoords - M-to-M coordinates from show-coords -THrcl .mdelta

.snps - SNPs from show-snps -rlTHC .1delta

.rdiff - Classified ref breakpoints from show-diff -rH .mdelta

.qdiff - Classified qry breakpoints from show-diff -qH .mdelta

.unref - Unaligned reference IDs and lengths (if applicable)

.unqry - Unaligned query IDs and lengths (if applicable)

其中,report file 对于比较两个相似基因组的差异十分有用。

mapview

从 show-coords 或 mgaps 处获得输入文件并将其转为 FIG, PDF or PS image file;

mapview 对于将多个 query mapping 到一个 ref 上时很有用;

详见 manual of MUMmer

mummerplot

从 mummer, nucmer, promer or show-tiling 处获得输入,并将其转换为适合使用 gnuplot 绘图的格式;

mummerplot      [选项]      <比对文件>

比对文件可以是 mummer、nucmer、promer 或 show-tiling(.out、.cluster、.delta和.tiling文件)的输出文件。

选项:

-b|breaklen: 突出显示距离最近序列末端超过breaklen个碱基的比对断点。

--[no]color: 使用百分比相似度渐变为图形线条着色或关闭所有线条颜色(默认情况下按比对方向着色)。如果图形非常稀疏,请编辑.gp脚本以使用'linespoints'而不是'lines'绘制。

-f|--filter: 仅显示表示“最佳”命中的.delta比对,即参考和查询子序列的一对一映射,即一个对一个的映射。

-h|--help: 显示帮助信息并退出。

等等。

它会生成用于gnuplot的脚本和数据文件,然后尝试运行gnuplot以生成图形。

如果想要对图形进行修改,可以手动修改生成的 .gp 文件,而后运行:

gnuplot   your_file.gp

就可以重新生成共线性比对的图形了。





就是,如果觉得有用的话,登录一下账号点个赞支持一下!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容