前言:
最近在浙大学习,张老师分享给我近期Cell文章公布的南极磷虾的基因组最新研究,让我组会上讲一下,那就精读一下,看一下(想起导师前段时间分享给我的那篇Cell文章还没有仔细看呢,下次再解读一下那篇文章)。
研究背景:
南极磷虾,生活在南极比较寒冷的海域,南极磷虾的眼柄基部、头部和胸的两侧及腹部的下面长有球形发光器,在外界的刺激下,可以像萤火虫一样发出冷蓝色的 磷光,这就是“磷虾”名字的由来。南极磷虾是南极地区的“ 关键物种”,南大洋磷虾的蕴藏量为 4~6亿吨,被称为“ 人类未来的蛋白资源仓库”。
研究结果:
Chromosome-level genome assembly and evaluation
研究人员共测了3.06Tb的 PacBio的CLR序列,734.99 Gb的HiFi-CCS序列,4.01 Tb短读取和11.38 Tb Hi-C读取,详见下表。
组装的基因组大小为48.01Gb,是目前报道组装出的最大的动物基因组,Scaffold N50长度为1.08Gb, 66.01%的contigs锚定到17条染色体上,未锚定到染色体上contig长度短且基因分布密度非常低(Figure S1A, Table S1)。
重复序列,尤其是短的长度相同的重复序列能够快速的扩张基因组,无脊椎动物基因组常有大量的串联重复(TRs),导致它们基因组较难组装。南极磷虾大量的DNA重复序列使其非常难组装,最常见的卫星重复序列长度比最近源的无脊椎动物基因组都长,Procambarus virginalis(美洲龙纹鳌虾)和Litopenaeus vannamei(南美白对虾)(Fig1 C,Table S2)。研究人员发现其组装的基因组中含有很大比例的TRs(25.77%),这仍然被低估,因为TRs很难组装,特别是对于单位长度长(>50碱基对[bp])和高丰度高TRs(Fig1 C,Table S2)。南极磷虾基因组具有比墨西哥蝾螈、肺鱼和两种甲壳纲动物更高的重复区域密度(Fig1 D)。此外,还发现93.43%的contig序列尾部为重复序列,且临近TEs具有高度相似性的重复序列,形成了额外的重复序列的延伸。
Fig1A 南极磷虾基因组和重复序列
(B)154种无脊椎动物基因组大小和contig N50;(C)比较南极磷虾、L. vannamei(南美白对虾)、P. virginalis(美洲龙纹鳌虾)基因组中51-249bp 长度的 TRs;(D)10kb 为单位长度计算基因组上重复原件分布;(E)无脊椎动物和脊椎动物重复序列组成比较,灰色线表示这些物种重复序列平均值;(F) 南极磷虾、L. vannamei、P. virginalis的DNA/CMC-EnSpm TE超家族系统发育树。
Attributes of a giant invertebrate genome
南极磷虾巨大的基因组来源自其重复序列的扩张,其重复序列比例达到了92.25%(Fig 1E,Tables S2)。转座原件(TEs)占了基因组的78.22%,值得注意的是,DNA/CMC-EnSpm占了重复序列的91.91%,占了全部基因组的42.02%。与P. virginalis(美洲龙纹鳌虾)和L.vannamei一起做DNA/CMC-EnSpm做系统发育分析显示,南极磷虾并没有显示出特殊的聚类。
南极磷虾共注释出28,834个蛋白编码基因,因为重复序列扩张插入基因区域,其基因和内含子长度要显著比肺鱼和墨西哥钝口螈短,然而,相比于其它46种海洋无脊椎动物,TE插入显著的增加了南极磷虾的内含子长度(Fig 2A和 S1F)。
Dynamics of repetitive sequence expansion and its genetic mechanisms
南极磷虾基因组GC含量为29.36%,低于90.91%(140/154)已发表的无脊椎动物基因组,这种低GC含量显示出基因组中大量的GC-poor DNA转座子(Fig 2B)。有争论显示CpG二核苷酸丢失因为TEs引起的基因组扩张。研究人员注意到南极磷虾中两个可能的TEs扩张事件分别发生在~36和~170 mya(Fig 2C)。最近发生的事件贡献了39.51%的基因组扩张,与磷虾属磷虾出现的时间接近,而另一次扩张事件贡献了18.54%(Fig 2C)。
宿主基因组中TEs累积水平来自长时间进化过程中TE的活跃与抑制的相互作用。研究人员通过Pfam蛋白家族结构域数据库对南极磷虾基因组蛋白序列进行注释,注释到的55.91%的结构域来自top 20 的蛋白结构域,其中11个与转座子(TE)活性有关(Fig 2D),比如RVT_1和integrase (integrase_H2C2)。20个结构域中,由三个结构域(zf-H2C2_2, zf-TRM13_CCCH, and zf-MYND)的密度高于其它46种非脊椎动物(Fig 2D),并推测这三种结构域和南极磷虾基因组扩增有关。
Fig 2. 大量重复序列对南极磷虾基因组的影响
(A) 一个具有大量重复序列内含子的南极磷虾基因(MTHL1)的例子。通过对齐PacBio CCS读取显示该区域没有装配错误;(B) 每个亚型重复序列和基因的GC含量和基因组比例的直方图。直方图柱高表示GC含量,折线表示基因组比例,虚线表示全基因组平均GC含量、DNA转座子(DNA)、长点缀核元件(line)、长末端重复序列(LTR)、短点缀核元件(sin)、串联重复序列(TR);(C) 转座元件(TEs)在南极磷虾体内的插入时间,从左到右的垂直虚线表示TEs的两个爆发峰和的发散时间分别是南极磷虾。每种转座子的百分比分别计算。RC表示滚圈重复;(D) 南极磷虾基因组中分布数量和密度top20的domains,图顶部的粗体线表示结构域的数量,图底部的箱线图表示47个无脊椎动物基因组结构域密度的分布。结构域密度计算为domains数除以基因组大小,Z分数归一化。南极磷虾的区域密度以红色倒三角突出显示。
The genomic basis of environmental adaptations of Antarctic krill
南极磷虾之所以能够在南大洋保持大量的数量,是因为它们进化出了季节性同步策略,使它能够适应不同的光照、温度和浮冰水平。南极磷虾暴露在寒冷的环境中,季节变化引起了剧烈的光线变化,并进化出了昼夜节律的遗传适应性。南极磷虾可能和其它真核生物一样,转录因子CLOCK (CLK)和CYCLE (CYC)结合编码其抑制剂的基因上游的E-box元件,产生了自我维持的昼夜节律。其基因组中发现了625个基因组包含至少一个E-box原件,包含了一些主要的生物钟抑制体PER, TIM和CRY2,三种关键的昼夜节律转录因子能够直接调节CLK和CYC表达。研究人员的发现提供了磷虾生物钟分子结构的模型(Fig 3A),证实了双重反馈回路机制存在的可能。进一步评估了生物节律反馈回路中基因表达的季节差异,揭示了四个昼夜节律基因(CLK、CRY1、NEMO和PDP1)在夏季和冬季的表达差异,CLK、CRY1和PDP1在夏季上调,而NEMO在冬季上调(Fig 3A)。南极磷虾基因组中有25个基因家族显著扩张(Fig 3B)。12个直接参与蜕皮周期(6个基因组家族)和能量代谢(6个基因家族)(Fig 3C),这些基因家族中的大部分基因是可以表达的(Fig 3D)。
甲壳素是甲壳类动物角质层的基本组成部分。南极磷虾中几丁质结合蛋白的编码基因发生了扩增(Fig 3E) 可能于其在蜕皮周期中精细调节角质层的形成和吸收有关。6个基因扩增的家族和能量代谢相关(Fig 3C)。一些和能量代谢相关的基因CYSC,PFK, and PKLR在夏天时高表达 (Fig 3F), 可能促进了卵黄的生成和蜕皮过程。消化脂肪酶基因PNLIPRP2的两个同源物之一在冬季高表达,可能有助于其在食物短缺的情况下生存(Fig 3F)。此外,促进脱壳和生长的基因(JHE、JHE-like CXE和CHT10)在夏季食物可得性高时上调,而抑制脱壳的基因(JHAMT和CASP2)在冬季上调(Fig 3F)。
Fig 3. 候选基因组变化是适应南极海洋环境的基础
(A) 南极磷虾双重反馈回路机制。粉红色阴影基因(CRY1, CLK, PDP1和NEMO)在夏季和冬季表达差异显著。而其他被黄色遮蔽的基因在夏季和冬季没有表达差异。E-box表示在受转录因子调控的时钟控制基因上游发现的启动子元件时钟(CLK)和周期(CYC);(B) 12种无脊椎动物的缺失基因和增加基因家族的系统发育图谱。蓝色和红色数字分别表示每个分支上获得和丢失的基因家族的数量(包含显著性和非显著性基因家族)。散度时间估计(百万年前,mya)显示在每个节点上,红色分支表示南极磷虾;(C) 南极磷虾基因组中能量代谢相关的基因家族显著扩张,每个基因家族中用气泡大小表示的基因数量。南极磷虾每个基因家族基因数量和其它物种比较的平均FC值用upper histogram表示;
(D) 55个南极磷虾样本中12个表达显著增高的基因家族基因;
(E) 12个物种中和蜕皮有关的基因组家族基因组OG0000000系统发育分析;
(F) 南极磷虾在夏季和冬季差异表达的箱式图。
Antarctic krill population dynamics
为了探究南极磷虾是否为单一同质遗传群体,研究人员对南大洋4个区域的75个南极磷虾个体进行了重测序,平均测序深度为17.72 x(Fig 4A)。获得了364.57 百万个SNPs,平均每37个bp就有一个SNP。不同地区的南极磷虾间遗传指数最大值Fst为1.92*10-3(Fig 4B),说明不同地区南极磷虾种群无明显的分化。使用66个个体,总计47.56万个SNPs位点做 PCA分析,不同地区磷虾存在一定的遗传差异,尤其是SG和PB-RS之间(Fig 4C)。isolation-by-environment (IBE)分析显示遗传差异显著和遗传距离相关(Fig 4D)。此外,研究人员使用the latent factor mixed model检测到了387个潜在的SNPs和不同环境适应性相关。4组中387个自适应snp的等位基因频率表明SG- SSI组和PB-RS组之间存在明显的遗传差异(Fig 4E)。这些结果表明,环境选择可能在不同南极磷虾类群的遗传结构中发挥重要作用
为了揭示南极磷虾的历史上的种群大小,采用了pairwise sequentially Markovian coalescent (PSMC)方法和PopSizeABC推断过去的有效种群大小(estimate past effective population sizes,Ne)。发现Ne在10 mya 前发生了急剧的减少(Fig 4F),和更新世时期南大洋温度整体降低时期一致,在100 千年前,种群又持续的扩张(Fig 4F)。
Fig4 南极磷虾种群变化
(A)四个地区,PB,RS,SSI,SG收集了南极磷虾样本进行重测序;(B)不通地区南极磷虾的遗传差异(Fst值比较);(C)66个个体,47,555,257个SNPs的PCA分析;(D)IBE分析,随着地理距离的增加,南极磷虾的遗传差异增大;(E)387个适应性SNPs等位基因在频率分布,PB/RS和SSI/SG间等位基因组频率分布差异;(F)估算南极磷历史虾种群大小。两年时间作为一代时间(9),突变率为每一代1.6*10-10 。蓝线代表地表温度,红线代表相对海平面。浅蓝色阴影表示南极磷虾种群瓶颈期后的扩张期。
总结:
磷虾基因组太大了,组装起来肯定非常费劲,对服务器的要求肯定很高,得耗费非常多的人力资源,材料方法部分对于我这种处在学习阶段的人来说,要比内容更有价值的多,十八般武器全上来秀了一遍,很多分析内容可以借鉴一下。
补充学习:
Fst:群体间遗传分化指数,是种群分化和遗传距离的一种衡量方法,分化指数越大,差异越大。适用于亚群体间多样性的比较。Fst值的取值范围是【0,1】,最大值为1表明两个群体完全分化,最小值为0表明群体间无分化。在实际的研究中Fst值为0--0.05时说明群体间遗传分化很小,可以不做考虑;
为0.05--0.15时,表明群体间存在中等程度的遗传分化;
为0.15--0.25时群体间存在较大的遗传分化;
为0.25以上的时候群体间就存在很大的遗传分化了。
isolation-by-distance (IBD) test:距离隔离
本文使用 文章同步助手 同步