Nature Genetics:水稻泛基因组文章继续解读
原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z
今天要读部分是我看到这篇文章才接触到的一个概念基因的PAV(presence-absence variation)突变, 也是这篇文章对66个物种深度测序组装contig的主要用途。前面的SNP/InDel/SV突变其实都可以通过常规的高通量测序比对,回贴到粳稻参考基因组上识别,唯独PAV突变指的是在日本晴参考基因组所没有的部分,也就是根本贴不回去。
先看下作者他们是如何识别PAV?首先是用RepeatMasker('-species rice -nolw')对得到的组装里重复序列进行遮盖,避免转座子,重复序列和微生物基因组序列对注释造成干扰。之后用FGeneSH预测基因结构,参数设置为monocotyledons。 预测的基因结构用BLASTN(''-e 1e-10 –F F'') 比对到粳稻参考基因组(RAP-DB on IRGSP-1.0 和 RGAP 7),那些比对的基因如果在粳稻参考序列上缺失,或者覆盖率不到50%, 就被定义为“新识别基因”。
当然这只是从头预测得到的证据,基因结构预测的常规套路还有一个转录组验证的过程,然而66个品种每个都搞一个RNA-Seq,费用肯定时太高了,于是作者就只用了具有代表性的野生稻W1943和籼稻GLA4。选取其苗期、根部、叶和圆锥花序上的组织提取RNA,然后进行高通量测序,用SMALT(map -i 700 -j 50 -m 30)进行回贴到W1943和GLA4的基因组上,最后用对唯一比对的read用RPKM进行标准化。 最后对预测得到的基因注释则是用BLASTN和InterProScan(‘-f TSV -iprlookup -goterms')。
一共在67个水稻品种预测到了10,872个基因,这些基因的来源有如下几个原因
- 大规模插入缺失
- 一些基因定位在粳稻基因组序列中物理间隔(physical gaps)中
如果这些基因都是伪基因,不表达,可能对后续研究帮助叶不会太大,因此RNA-Seq的表达量研究就非常必要。这些基因一半以上(57.1%, 60.6%)都是表达,就是表达量水平比那些在粳稻基因组上有注释的基因低。
并且作者还用已知的几个粳稻缺失基因(Sub1A, SNORKEL1 and SNORKEL2控制耐淹性, Pstol 控制耐低磷性)进行了验证,发现这些基因都在泛基因组里。也就是说现在找到的新基因也可能有比较重要功能的基因。还有,在粳稻良好注释基因可能在其他水稻品种中也有PAV变异,比如说Ghd7,控制花期,OsFBX310控制谷壳颜色。
为了了解水稻种PAV的总体情况,作者整合了67个基因组种的编码基因(去冗余)得到了42,580个non-TE基因。作者用到了玉米泛基因组和泛转录组套路,尝试预测每个水稻品种的基因总数。于是他们发现在67个水稻品种的时候,基因基本上就不变了,也就是说你们再去测其他品种也没有多大意义了,收益递减。
作者还创建了66x66的共有基因矩阵,颜色深浅表示相同的基因数目,发现26,372个出现在60以上水稻品种中,16,208个出现在小于60个水稻品种中。于是这些基因就可以分为核心和可有可无两类。可有可无的基因集可以继续分为285个组。作者又对核心和可有可无的功能分类。作者发现可有可无的基因大多时富集在生物和非生物胁迫,尤其是NBS-LRR (nucleotidebinding site–leucine-rich repeat) and NB-ARC (nucleotide-binding adaptor shared by APAF-1, R proteins and CED-4) genes。 而在核心组77.6%的编码基因在InterPro数据库中能检索到,比可有可无的35.8%高,也就是说可有可无的基因有很大可能是假基因或者或是人为因素导致。
明天读讨论,结束这篇文章的精读。