今天和大家聊一聊共线性分析。
共线性
共线性研究的是同源基因或者序列的排布关系,比较常见的是组装基因组文章中,通过同源性比较来评估基因组的组装效果以及同源基因的保留和丢失的情况,用来研究材料的进化关系。
[图1:https://doi.org/10.1007/978-1-4939-9074-0_4]
应用上主要有两个点,第一个是物种间基因组共线性分析,确认种间基因组同源性的程度;第二点是物种内不同染色体的同源性分析,用来分析重复区或者多拷贝基因的分布情况,比如下面这个小麦ABD三套基因组的同源性分析。
[图2:DOI: 10.1126/science.aba5435]
分析原理
整个共线性分析的原理其实就是确认同源基因的位置和方向。这一点可以通过很多软件来分析,大家熟知的比对软件blast可以,但是全基因组范围内所有基因的比对耗时会很长,而且资源占用比较多。MUMmer用的比较多,找的是唯一匹配结果,但是灵敏度比较低。last软件也可以分析全基因的共线性分析,优势是运行速度快,资源消耗比较少,但是貌似不支持有gap的比对(未确认,有兴趣的话可以查证)。
上述图1来源的文件介绍了全基因组比对的原理以及数十种比对软件,有兴趣可以看看或者测试一下。
分析软件
有很多软件都可以做整套的共线性分析
- MCScanX
软件地址https://github.com/wyp1125/MCScanx。支持共线性分析,事先需要使用blast进行比对,将比对结果作为输入文件参与计算,输出共线性结果。不过最终的结果存在很大的优化空间。
- MCScanX-python
软件地址https://github.com/tanghaibao/jcvi/wiki/MCscan-(Python-version)。该软件依赖的是last比对软件,分析速度很快,输出图形也很漂亮
很多文献绘制共线性分布图是这种格式的比较常见,可能是比较直观。该软件貌似不支持圈图的输出。
- circos
软件地址http://circos.ca/,这是一款用的很多的软件了,便于展示各条目之间的相关关系,做出来的图也很高大上
[参考:http://circos.ca/images/scientific_literature/]
做这个分析的软件不在少数,可以挑自己喜欢的或者参考文献里的软件试着做一下。