在GetOrganelle组装结果中,如果直接成环且无多余的正向、反向重复序列,那么就能看到图1所示的结果。
graph1.1与1.2就是ssc的两种构象。但若基因组存在IR区之外的重复序列,这里的graph就会增多,例如图2,在IR区中存在一个正向重复,导致出现6种可选构象(图3)
每个gragh1.x的长度均为160570 bp,但将图2进行理论性重构应该是90315+7062+1204+1102+251302+19143=161830 bp。
于是我在Bandage中对图2进行拆解。正向重复的部分拆解很容易,但为了得到如图1那样针对ssc的两种构象,我反复尝试,按照图4的方法,却总是难以获得想要的那两种构象,有时虽然获得了(图5-B),但确是出于巧合。我很疑惑,在我出乎意料地获得第三种构象(图5-C)后,我开始领悟。Bandage的remove or merge对数据的调整是绝对的,任意一种可能的模式调整都会导致数据采取不同的拼接方式。连线方式看起来只有图4两种模式,但结果应该有四种:即LSC and SSC各有正反两种构象,故共可拼出四种数据。如何才能由两种连线方式拼出四种构象呢?实际上当对IR deplicate时,复制品的移动可以向上或向下(图6),经试验,这将导致不同的构象。因此,若想得到目标构象,需先以一个方向,一种连线方式进行试验。然后以所得构象的共线性结果进行分析,决定如何移动IR与连线。
获得正确构象,还需先将positive and negative nodes的结果一并导出(图7),否则可能只有图5那种整体反向的结果。保存的fasta再由bandage打开,可以看到两条未成环的线,选择性删除后保存,其中之一是正确的目标构象(图8)。构象校对后的叶绿体基因组全长160675 bp,不是理论的161830 bp,发现是正向重复deplicate, merge之后就缩短了,也许是软件重新审查了重复序列的边界,导致的吧。