本篇文章学习、解析的内容来自《Genomes of the Banyan Tree and Pollinator Wasp Provide Insights into Fig-Wasp Coevolution》
该文章于2020年发表在Cell上(坦哥,我滴超人)。
讲了一个榕树与榕小蜂协同进化(co-evolution)的故事。
Illumina short reads SNP calling
非常normal的一套流程,也就是使用3个female smaple和3个male sample对SNP calling,
对于X-specific SNP和Y-specific SNP的判断,文章中给出的描述如下,
- SNPs were only homozygous in female individuals -> X specific locus
- SNPs were heterozygous and only existed in male samples -> Y specific locus
我画个示意图来帮助理解,
在完成组装的情况下(没有phasing的情况下),将全基因组测序回帖到参考基因组上,会呈现如下的样子,即X和Y都有,
最终在VCF文件中呈现的样子,此处也是不考虑由X和Y染色体的rearrangement事件等所产生的SNP位点。
Pacbio reads phasing
Long reads phasing实际上和short reads是一样的,
- 先将经过correction的序列使用minimap2比对到参考基因组上
- 再使用WhatsHap这个软件以BAM和VCF文件作为输入文件,鉴定phased SNP block WhatsHap这个软件最初也还是为human genome设计的,因此也就不适用于polyploid 此处输入的VCF,是sample genotype为“0/1”的SNP,最终做phasing的目的,也就是为了将这些SNP对应X又或者是Y给区分开来
得到blocks之后,需要根据该blocks上属于X还是Y染色体的SNP多少(举个例子,超过70%都是属于X chromosome的SNP,则判断该reads属于X染色体),来判断该SNP blocks的关系,最终再进一步根据这些blocks将PacBio long reads给分配到X又或者是Y上。
Note:sex-Phase是直接根据输入的BAM文件来进行的cluster,因为BAM文件包含reads信息。
可能很多人看到这会觉得很懵,但是把SNP blocks直接理解为共线性区块的鉴定也是是非常好理解了,
即anchor gene pairs的鉴定 ->syntenic chromosome blocks
De novo assembly of X and Y chromosomes
到这一步,就已经比较清晰明了了,
- CANU
- ALLHiC
就可以将X和Y chromosome给组装出来了。
sex-Phase github link:https://github.com/tangerzhang/sexPhase
写个后话
由于自己本身对sex chromosome evolution的方向还是保留着兴趣,同时也对evolution genomics、domestication等问题,因为植物中的性别实在是太“诡异”了,不仅有雌雄同体、雌雄异体等等,所以才写了这一篇笔记。
做技术很重要,但是如何构思一个好的科学问题以及如何利用技术来解决问题,这个更加重要,技术永远是手段。继续加油吧。