对26份大豆进行De Novo组装并构建大豆泛基因组

2020年6月17日田志喜老师等人的工作发表于Cell

1 Introduction

Pan-genome 相比传统线性Reference genome具有的优点：

包含物种所有的基因，主要体现在可以检测大量的基因组结构变异（SVs）中的获得/缺失突变（PAVs），可以挖掘利用更多的基因资源。

包含物种所有的等位基因变异类型（alleles）。

目前，已有60000多种大豆品种分布在世界各地。2010年，Schmutz等发表了栽培大豆第一个reference genome Williams 82（Wm82）。2018年，田志喜老师等对我国栽培面积最广的大豆品种“中黄13”（Zhonghuang 13，ZH13）进行从头组装测序，并于2019年对ZH13基因组再次优化。2019年，Xie等发表了野生大豆W05基因组。对这三个基因组进行比较分析发现，在不同品种的基因组间存在大量的PAVs和CNVs，因此构建大豆Pan-genome是至关重要的。

2014年，邱丽娟老师等利用二代测序构建了7个野生大豆的泛基因组。本文中，田老师等利用多种测序技术，对26份大豆材料进从头组装，并结合已有的3个大豆参考基因组构建了graph-based的大豆泛基因组。

2 Result

2.1 深度重测序2898份大豆重头组装26份大豆

2.1.1 2898份大豆重测序：

野生大豆：103份地方品种：1048份栽培品种：1747份，Illimina >13 $\times$ ，与ZH13基因组比对，共发现31,870,983个SNPs。利用全基因组的SNPs进行系统发生分析，将2898份材料分为6组，所有的野生大豆为一组，栽培大豆分为5组，发现材料系统发生分析结果与材料地理分布一致。

2.1.2 26份大豆从头组装：

Method and coverage depth：PacBio 单分子实时测序（SIngle-molecular real-time, SMRT）96 $\times$ ; Nanopore 光学图谱测序（Optical mapping）277 $\times$ ; Hi-C 136 $\times$ ; Illimina 68 $\times$

组装质量：AVERAGE Contig N50: 22.6Mb Scafford N50: 51.2Mb Genome: 1011.6Mb Chr loading: ~99% contigs

2.1.3 基因组注释：

重复序列占到~54.4%，其中LTR比例最大。
对26份材料的根、茎、叶、花、不同发育时期种子进行RNA-seq（8Gb/sample）和small RNA-seq（~278Mb/sample）。每个基因组平均鉴定到56,552个蛋白编码基因，553个microRNA，171个snRNA和439个rRNA基因。BUSCO：~95.6% of the 1440 single copy Embryophyta genes。

2.2 Core and Dispensable genes

Pan-genome analysis: 26 de novo assembled genomes + ZH13 genome

Gene classification: all genes were classified into 57492 families

随着基因组数目的增加，Pan-genome中的基因数量也随之增加，当基因组数目达到25个时，基因数目增加到平台期，因此这27个基因组构建的泛基因组基本可以涵盖大豆所有的基因。

Core genes：present in all 27 accessions, 20623 families
Softcore genes: present in 25~26 accessions （>90% of the collection）,8136 families
Dispensable genes: present in 2~24 accessions, 28,670 families
Private genes: present in only one accession, 27 families
Dispensable and private genes accounted for 49.9% of the total gene sets and accounted for an average of 19.1% of the genes in individual accessions.

Core and softcore genes(~77.5% and 72.1%) contain more InterPro domains than dispensable and private genes(49.0% and 38.5%).
The nucleotide diversity(π) and dN/dS are higher in dispensable genes than core genes.
说明，Core genes比dispensable genes功能更加保守。

GO（Gene Ontology）和Pfam enrichment分析发现，core genes主要富集在生长、免疫、生殖、细胞组成发生等生物过程，dispensable genes主要富集在响应生物和非生物胁迫方面。Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway analyses 发现core genes 主要富集在基本代谢和次级代谢通路中，然而dispensable genes主要富集在脂肪酸合成等特定的代谢通路中。

2.3 Sequence variation identification in 29 soybean genomes

Comparative genomics analysis： 26 de novo assembled genomes + Wm82, ZH13, W05

将28个基因组与ZH13基因组比对：

2.3.1 SNPs and InDels

Sequence variation in pan-genomes: 14,604,953 SNPs； 12,716,823 InDels
Sequence variation in 2898 accessions: 31,870,983 SNPs
Though the SNP number is different, the SNP distributions are similar between pan-genome and 2898 accessions genome set.
比较29 genomes和2898份材料间的nucleotide diversity，dN/dS，结果高度一致，进一步证明这29份材料具有充分的代表性。

2.3.2 SVs

PAVs:723,862, 1~2kb
CNVs: 27,531, vary from 2~10, enrich between 2~3
Translocation events: 21,886, including 6,801 intra--chromosome and 15,085 inter-chromosome translocations, 10~30kb
Inversion events: 3,120, length: 100~200kb

平均每个基因组出现的PAVs数据量为167.09Mb，约占基因组16%。PAVs是影响基因组大小的主要因素，约90%的基因组大小差异是由PAVs产生的。

2.4 Graph-based genome and SV characterization

构建由124,222个SVs组成的SV非冗余数据集，将由29个大豆de novo 基因组整合组装成graph-based genome，并把从中鉴定到的776,399 个SVs 进行merge，形成由124,222个SVs构成的非冗余SVs数据集。与核心基因组组成结构相似，随着SVs非冗余数据集的增大，其规模也逐渐进入一个平台期，并鉴定到130个存在于所有材料中的SVs。

从29份材料中鉴定到124,222个非冗余SVs，只有130个SVs在所有的材料中出现；将每个材料中鉴定的SVs分为四种类型

作者依据这些SVs在28份大豆中出现的频率分为四类：
Core SVs: present in all 28 samples
Softcore SVs: present in >90% of samples but not all(26~27)
Dispensable SVs: present in more than one but <90% of samples(2~25)
Private SVs: present in only one sample
最终发现，野生大豆中有更高比例（22.2%）的private SVs，而栽培大豆含有的private SVs只占到6.7%。然而，Wm82中有着更高比例的private SVs，这可能是由于该基因组组装主要基于二代测序的原因。

SVs主要出现在重复序列区域；PAV也主要出现在重复区域

作者发现，SVs主要富集在DNA的重复区域，并发现了比以往更多的PAVs，其中78.5%的PAVs都分布在重复序列。这一发现支持了Kumar等人的理论，即认为基因组的差异很大程度上来源于DNA重复序列的变异。

作者基于ZH13基因组，整合了DNA重复序列少于90%的PAVs组成了graph-based genome。然后将2898个大豆重测序数据比对到graph-genome上，共鉴定到55,402个SVs。从2898份材料中鉴定到3584个新的SVs，这些SVs在群体中出现的频率较低。野生大豆中鉴定到的SVs要明显多于地方种和栽培种。

野生大豆中鉴定到的SVs要明显多于地方种和栽培种

过去的研究发现，疏水蛋白（Hydrophobic protein from soybean, HSP）积累会影响大豆种皮光泽（Seed luster）。作者利用2898份大豆材料中鉴定到的SVs对种皮光泽性状进行全基因组关联分析，在15号染色体上鉴定到一个显著相关位点，一个编码疏水蛋白（HSP）的10kbPAV导致了种皮光泽的差异，存在10kb片段的大豆有光泽，缺失10kb的大豆没有光泽。

利用graph-genome进行GWAS分析，发现在15号染色体上存在一个与种皮光泽相关的PAV

10kb的PAV导致种皮光泽差异，单倍型分析发现存在10kb的大豆中有光泽的比例更高

2.5 Sequence variations and paleopolyploid

前人对Wm82基因组研究发现，在~13 million years以前大豆发生了一次全基因组复制事件（Genome-wide duplication，WGD），导致大豆基因组中将近50%的基因存在多个拷贝。作者对构成graph-genome的基因组逐个进行分析发现，~54%的基因组是由WGD事件产生的。与Wm82基因组类似，WGD主要存在于DNA基因富集区域（Gene-rich region），并与DNA重复区域距离较远。

WGD主要发生在gene-rich region

前人提出存在duplications的区域进化速度要低于单拷贝的区域的假说。作者在29份基因组中发现，WGD regions的核苷酸多态性要显著低于non-WGD regions。

non-WGD regions的核苷酸多态性要高于WGD regions

此外，WGD regions有更高比例的core 和 softcore genes，non-WGD区有更高比例的dispensable 和 private genes。

non-WGD区域发生的 SVs数量也少于WGD区（46% versus 54%）。WGD区域比non-WGD区含有更少的private SVs。意味着全基因复制事件不仅限制了基因组的进化速率，并作为重要的遗传因素作用于SVs的进化。

WGD regions 和 non-WGD regions的基因成分和SVs成分

作者选取每个PAV两侧各1kb区域，并进一步分为100bp的窗口，分析每个窗口平均的核苷酸多态性，发现距离PAVs越近的区域核苷酸多态性越高，距离越远的区域越低，在距PAVs约700bp的位置时核苷酸多态性水平趋于平稳。这些结果说明，全基因组复制事件会影响PAVs附近indel-associated的碱基替换，但对距PAVs很近的碱基替换频率影响较小。

核苷酸多态性随距PAVs的距离而降低，WGD会影响核苷酸多态性降低的速率，但对PAVs附近核苷酸多态性最高的区域影响较小。

2.5 Gene structure variation and gene fusion

基因数目：泛基因组分析，从26个de novo组装的基因组中共鉴定到27175个基因是在ZH13基因组中没有的。有48249个基因至少在26个基因组中的一个里缺失。

SNP：统计SNP位置，分析SNP造成的premature stop codons 数目

Indel：统计Indel位置，分析Indel造成的frameshifts

PAVs：PAVs造成的基因存在/缺失

Gene fusion by read-through：重点研究了E3位点的gene fusion事件，利用比较基因组、转录组学、PCR扩增、sanger测序等方法在不同的材料中共鉴定到15个gene fusion事件。

cover depth:

BUSCO：

InterPro domains：

The nucleotide diversity(π) and dN/dS ：

Pfam enrichment：

GO（Gene Ontology）：

Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway analyse：

Minor allele frequency (MAF) <0.01:

The precision, recall, and F1 score were 0.94, 0.75, and 0.83, respectively：

genome-wide duplication:

滑动窗口：

为什么水稻选择66个个体构建pan-genome，然而本研究只选择26个，是由于群体变异、群体结构影响的么？

构建大豆pan-genome 数据库。