该系列主要介绍了 MUMmer 软件下核苷酸序列比对程序 nucmer 的使用,计算操作见前两篇推文;
这一块主要解释一下比对的结果文件 <prefix>.delta 如何解读;
delta file 表示 NUCmer pipeline 下所有 alignment 的编码表示,该软件还设计了一系列程序,通过以 <prefix>.delta 文件作为输入,从而输出一些可读的结果。
delta file 主要包含每个 alignment 的坐标,并强调这些 alignments 中包含的 insertions 或 deletions 之间的距离;
以下图为示例,简单解释一下每一行的内容:
第一行:展示了 query 和 reference 基因组文件的位置,这里我隐去了;
第二行:指定了 alignment 数据类型,即 "NUCMER" 或 "PROMER";
第三行:4 个词分别代表 ref 的 fastaID,qry 的 fastaID,ref 序列长度,qry 序列长度;
第四行:第一组 alignment 结果,指定两个对齐序列,后续每一组对齐都有这么一个 header,并描述对齐的坐标和一些错误信息;如果起始坐标大于结束坐标,则表明对齐是在反链上;前 4 个值分别表示 reference 中的起点和终点,以及 query 中的起点和终点;后 3 个值分别表示错误数(non-identities + indels),相似错误(non-positive match scores),终止密码子(NUCMER为0);
第五行始:每一个数字表示一个插入或确实,正值 query 相较于 reference 存在缺失,负值表示插入,0 表示该组 alignment 结束;数字坐标叠加表示,比如:上图中 query 第一个缺失的位置为 32,第二个缺失的位置为 32+27,第三个缺失的位置为 32+27+1,以此类推;
但是,在实际应用在,该结果需要进一步处理才能生成更加可读的结果,下一篇就介绍一下 delta-filter、mapview、mummerplot、show-aligns、show-coords、show-snps 等操作。
要是觉得有用可以登录一下账号,点个赞,以表支持!