Feng Zhang†、Zhiyan Zhang†、Xuming Yan、Hao Chen、Wanchang Zhang、Yuan Hong和Lusheng Huang*
摘要
背景:研究表明,血液学性状与家猪的代谢和免疫系统密切相关。然而,我们对血液学性状的遗传结构知之甚少。为了确定控制血液学性状的数量性状基因座(QTL),我们对495头中国苏太猪的15个血液学性状进行了单标记全基因组关联分析(GWAS)和单倍型分析。
结果:我们通过单标记GWAS鉴定了161个显著SNPs,其中44个全基因组显著SNPs与11个血液学性状相关。其中大部分位于SSC2上。同时,通过单倍型分析,我们检测到499个显著SNPs,其中154个全基因组显著SNPs与9个血液学性状相关。大多数已鉴定的位点位于SSC7和SSC9上。
结论:通过单标记GWAS和单倍型分析,我们分别在SSC2和SSC7上检测到4个具有多效性的SNPs。此外,通过对基因功能注释、位置及其表达变异的分析,最终筛选出7个基因作为潜在候选基因。特别地,我们发现其中三个基因(TRIM58、TRIM26和TRIM21)来源于同一基因家族,并且执行相似的天然免疫和适应性免疫功能。这些发现将有助于剖析免疫基因网络,进一步鉴定QTL的致病突变,并为家猪血液学性状的分子基础提供见解。
关键词:单标记GWAS,单倍型分析,血液学性状,猪
背景
血细胞在抗病免疫应答过程中发挥重要作用[1,2]。血液细胞由白细胞(WBC)、红细胞(RBC)和血小板三部分组成[3]。 白细胞的主要功能是先天免疫和适应性免疫,以及保护受试者免受病原体的侵害[4,5]。白细胞计数是感染性和炎症性疾病(如白血病和淋巴瘤)的有力指标。红细胞执行一系列功能,如运输氧气、二氧化碳和杀死病原体[6,7]。红细胞异常表明贫血、红细胞增多症、高血压和心力衰竭的风险增加。血小板在止血、启动伤口修复中发挥重要作用,并可作为先天免疫应答的强效应细胞[8-11]。特发性血小板减少性紫癜(ITP)常伴有血小板计数减少,是一种特发性免疫性血小板减少症,可导致下消化道出血或其他内出血[12]。简单地说,它们是诊断和监测血液病以及确定患者整体健康状况的重要临床指标。
由于与人类生理特征高度相似,家猪正日益成为人类遗传病研究的理想模式动物[13]。 因此,在家猪中发现新的血液学性状位点并揭示其遗传机制,有助于人类血液病的研究。然而,遗传变异与血液学性状之间的关系尚不清楚[14-17]。e.据我们所知,到目前为止,已经鉴定了239个全基因组显著数量性状基因座(QTL),它们只解释了遗传变异的一小部分(http://www.animalgenomorg/cgi-bin/QTLdb/SS/index)[18]。在这些鉴定的QTL中,置信区间通常很大(>20 cM)[19],并且包含数千个功能基因,因此妨碍了对可能的候选基因的鉴定。与传统的QTL定位策略相比,单标记GWAS[20,21]在杂交群体中利用了高密度分子标记的连锁不平衡,而不是低密度分子标记的连锁信息。因此,单标记GWAS可以有效地缩小检测到的QTL的置信区间,并挑选出与感兴趣性状最相关的标记。 另一方面,如果致病突变是古老的,则标记和突变位点之间的LD太小而不能用当前的标记密度捕获。单倍型整合了连锁和连锁不平衡信息[22],被认为具有克服连锁和(或)单一标记GWAS缺点的能力。理论上,与单独进行连锁分析或连锁不平衡分析相比,单倍型分析可以获得更准确的位置和更短的置信区间。本研究对中国苏太人群的15个血液学性状进行了单标记GWAS和单倍型分析。本研究的主要目的是结合生物学和生物信息学注释,揭示与血液学性状相关的新位点,发现潜在的致病基因。此外,我们的结果也可能为人类血液学性状的分子基础提供见解。
结果
质控后的表型统计和SNP特征
表1列出了当前实验群体中15个血液学性状的表型观察的均值、标准差和变异系数(C.V)。MCHC和PLT的最小值和最大值的C.V范围分别为3.73至38.71。质量控制后,没有一个个体的基因分型检出率<95%,导致495个个体仍需进行关联分析。此外,排除了3610个检出率<90%的SNP、16242个次要等位基因频率(MAF)<0.05的SNP、64个严重偏离Hardy Weinberg平衡(HWE)(p值<10-5)的SNP和149个表现出孟德尔不一致性的标记,总共保留了44650个SNP。我们还删除了4864个SNPs,包括未定位的SNPs或性染色体上的SNPs。最后,总共39786个SNPs被保留下来用于进一步分析。
红细胞特征
单标记GWAS:在8个红细胞性状中,总共鉴定了141个显著SNPs(包括40个全基因组SNPs和101个 suggests SNPs):5个HCT,1个HGB,40个MCH,22个MCHC,56个MCV,4个RBC和13个RDW(表2和附加文件1:表S1)。 所有141个SNP均位于SSC1、2、3、4、6、13和16位;其中大部分位于SSC2和SSC6上(图1)。未检测到RDW-SD的显著SNPs(附加文件2:图S1)。83个SNP位于39个注释基因中,58个标记位于距最近注释基因65~473458bp的区域内。在141个SNPs中,40个SNPs与至少两个性状相关。最显著的SNP(SS478944677)与3个红细胞性状相关:MCV(P值=3.00×1011)、MCH(P值=1.10×109)和RDW(P值=1.86×106)。
单倍型分析:总共鉴定了8个红细胞性状的498个显著SNPs(包括154个全基因组SNPs和344个提示性SNPs):192个HCT、60个MCH、68个MCV、165个RBC和13个RDW-SD(表3和附加文件3:表S2)。这些显著的SNPs位于SSC1、2、4、5、7、8、9、11、12、14和15,其中大多数位于SSC7和9(图2)。 未检测到与HGB、MCH和RDW相关的显著SNPs(附加文件4:图S2)。位于SSC7上ENSSSCG00000001232基因的顶端SNP SS107842725与红细胞压积(HCT)、红细胞(RBC)和红细胞平均体积(MCV)相关。此外,154个全基因组显著SNPs中的38个位于24个注释基因的区域内,其余位于最近的已知基因的区域内,距离为62-757213bp。
白细胞计数
单标记GWAS:白细胞计数分析显示单标记GWAS在SSC2上有两个显著的位点。与WBC相关的最显著SNP SS107857076(p值=6.03×10-6)位于SSC2上的105499649 BP处,与ENSSSCG00000030166基因相距95033 BP。剩余的SNP SS131195511位于SSC2的101149437bp处,距离GPR98(G蛋白偶联受体98)基因277118bp。单倍型分析:通过单倍型分析确定了一个与WBC相关的显著位点。SNP SS131152863位于SSC1的289943447 BP处,距离TLR4(Toll-like receptor 4)基因157600 BP。
血小板性状
单标记GWAS:通过单标记GWAS检测到18个与两个血小板性状显著相关的SNPs:13个为P-LCR,5个为MPV。它们位于SSC2上,分布在10.7 MB区域内(54474152–65200938 BP)。P-LCR和MPV都共享SS107886044的顶部SNP,该SNP位于注释基因TRIM58(包含58的三重基序)的105499649bp处。
单倍型分析:单倍型分析未检测到显著SNP。
讨论
苏太猪是梅山(二花脸)母猪与杜洛克公猪杂交25代左右产生的。它们的基因组由来自两个品种的单倍型片段的小片段拼接而成。因此,它们的LD区块比经典的QTL作图群体小得多[23]。苏太猪存在两种LD:一种是通过杂交创造的品种间LD,另一种是在祖先历史中创造的品种内LD,因此成为QTL定位和单标记GWAS分析的良好实验群体。
与先前的研究相比
通过进行单标记GWAS和单倍型分析,我们确定了与15个血液学性状相关的651个SNPs。a.在这些SNPs中,253个位于已知基因区域内,265个位于注释基因附近,133个未定位于当前组装的基因组(Sus scrofa Build 10.2,http://asiensembl.org/index.html)。到目前为止,已有多篇文献报道了猪血液学性状的单标记GWAS结果。张等人使用相似关联策略,在1020个白色杜洛克×二花脸F2杂交的18个血液学性状中发现了185个全基因组显著SNPs[24]。大多数已鉴定的显著SNPs位于SSC8上。Luo等人[25]在大白×中国民F2杂交中检测到62个全基因组显著和3个染色体显著的与红细胞性状相关的SNPs,其中大部分也保留在SSC8上。他们都指出KIT(V-KIT Hardy-Zuckerman 4猫肉瘤病毒致癌基因同系物)基因是潜在候选者。 在我们的研究中,我们没有在这个区域检测到任何与红细胞性状相关的信号。基特对毛色至关重要,而我们研究中的所有个体都是黑色的。因此,KIT基因没有变异,当然也没有关联信号。在Luo等人中没有显著的SNP。和Zhang等人。与我们的研究重叠。相似分析策略不一致的原因可能是致病基因位点的单态性、群体异质性和复杂的遗传背景。这些结果也提示,血液学性状是一个受多基因影响的复杂性状。Wang等人[26]通过类似的单标记关联研究,在2个西方品种和1个中国合成品种中鉴定了注射经典发热疫苗后18个血液学性状的111个显著SNPs。它们的定位结果可能既包括影响免疫应答的QTL,也包括影响基础血液性状的QTL。在此,我们发现SSC6上的9个SNPs与我们的研究结果一致,但没有功能基因位于该区域。
单标记GWAS与单倍型分析结果的比较
在本研究中,我们进行了单标记GWAS和单倍型分析,以探索中国苏太猪血液学性状的潜在致病基因。在MCH的两次分析中,仅有9个位于SSC2的SNP重叠。单标记GWAS的基本原理是比较按等位基因分组的表型差异。如果标记密度不够高,显著的SNPs可能会因为标记和致病突变之间的低LD而丢失。然而,单倍型将克服这一缺点。Druet和Georges[27]已经充分描述了单倍型分析,其同时利用了近期和祖先重组事件。在这里,我们使用单倍型分析,鉴定了位于SSC1、2、4、5、7、8、9、11、12、14和15上的490个SNPs,这些SNPs不能被单个标记GWAS检测到。然而,单倍型分析的一个缺点是检测能力的降低,因为它的自由度通常比单标记分析大。 张等人[28]还指出了由于自由度造成的这一现象。然而,通过自由度增加LD和降低功率之间的平衡很难衡量。此外,整个基因组的LD是不均匀的——一些区域的LD较高,而另一些区域的LD较低。在这种情况下,我们建议执行单标记和单倍型分析策略,以捕获更多相关的SNPs。对于8个红细胞性状,我们通过单标记分析获得了141个显著SNPs,通过单倍型分析获得了498个SNPs。总之,651个显著的被鉴定为与血液学性状相关,这比任何一种分析策略都多。
可能的多效性QTL
MCH、MCV和P-LCR的Manhattan作图模式相似,它们在SSC2上的共同区域为54.47~55.24Mb,包含3个SNPs(SS131191392、SS478944677和SS131085967)。MCH和MCV分别是反映每RBC平均血红蛋白重量和平均RBC体积的参数。 通过分析血液学性状之间的相关性(附加文件5:表S3),观察到两个性状之间的高度相关性(R=0.804,p值<1.0×10-16)。这一结果暗示SSC2上的QTL可能具有多效性。SS107842725位点位于SSC7基因24777963 BP处,是HCT、MCH和RBC的首位SNP。曼哈顿图也探索了三种表型非常相似的模式。红细胞压积(HCT)、红细胞平均血红蛋白浓度(MCH)和红细胞计数(RBC)主要测定红细胞的变化,它们之间可能存在分离依赖性。结果表明,多效性QTL在血液学性状上普遍存在。在临床诊断中,可以将HCT、MCH和RBC三个参数结合起来,进行更精确的诊断。
潜在的候选功能基因
总之,我们通过单一标记GWAS(附加文件1:表S1)在与血液学性状相关的7条不同染色体上鉴定了161个显著的SNPs。在这些SNPs中,从52.14到90.17Mb的14个注释基因中发现了25个SNPs。 通过对这些注释基因功能的检测,我们最终选择了4个基因作为潜在的候选基因。TRIM58、CPAMD8(C3和PZP-like,含有8个α-2-巨球蛋白结构域)、ABCA7(ATP结合盒,亚家族A(ABC1),成员7)和JAK3(Janus激酶3)这四个基因在功能上与血液相关细胞或免疫功能相关。
位于TRIM58基因的SNP SS107886044解释了15.43%(表2)的p-LCR表型变异。克里斯托弗等人认为TRIM58是一种E3泛素连接酶,调节红系终末细胞周期和去核[29]。此外,TRIM58蛋白参与病原体识别[30]和先天免疫应答的调节[31]。因此,TRIM58基因可作为控制P-LCR的强候选基因。除TRIM58外,CPAMD8基因内的SNP标记(SS131190955)也显示高关联信号,p值为1.33×10-10。CPAMD8基因高度保守,可能与C3/α2M家族的其他成员具有相似的功能,也参与先天免疫[32-34]。 ABCA7是ATP结合盒(ABC)转运蛋白超家族成员之一,在体外诱导人单核细胞向巨噬细胞分化过程中表达。此外,ABCA7 mRNA主要在骨髓淋巴组织中检测到,在外周白细胞中表达最高[35,36]。JAK3主要在造血细胞中表达,如NK细胞、T细胞和B细胞[37],并响应其激活而转导信号。此外,消除JAK3的突变可能导致常染色体SCID(严重联合免疫缺陷病)[38]。
通过单倍型分析,我们确定了154个全基因组显著位点,主要是SSC7和SSC9。其中,在34个注释基因中发现了50个显著的HCT SNPs,在4个注释基因中发现了4个显著的RBC SNPs。在这些注释基因中,通过基因功能检测筛选出3个候选基因:SSC7上的TRIM26、SSC9上的TRIM21(Triple Motif Containing 21)和NUP98(Nucleoporin 98kDa)。 这些基因在功能上与血液相关细胞或免疫功能相关。
编码三重基序(TRIM)家族成员的TRIM26位于SLA区内[39]。Lee等人还推测TRIM26基因因其预测的蛋白质功能而在人类免疫应答中发挥重要作用[40]。除TRIM26外,TRIM21基因也属于TRIM家族。它是IFN调节因子IRF3和IRF8的E3泛素连接酶,具有先天免疫和适应性免疫功能[41]。Yang等人证明TRIM21与Pin1相互作用,在病毒感染期间介导IRF3的泛素化和降解[42]。此外,据报道,TRIM21可调节T细胞活化或增殖,因为TRIM21的过表达可增加CD28刺激的Jurkat T细胞中IL-2的产生[43]。因此,我们可以将参与生理性免疫反应和病理性自身免疫过程的TRIM21基因视为强有力的候选基因[44]。 NUP98融合蛋白已显示抑制造血前体细胞的分化,并增加造血干细胞或祖细胞的自我更新[45]。已知NUP98基因在造血系统恶性肿瘤患者中与至少28个不同的伴侣基因融合,包括急性髓系白血病、急变期慢性髓系白血病、骨髓增生异常综合征、急性淋巴细胞白血病和双系/双表型白血病。
在所有鉴定的基因中,我们特别指出了三个基因(TRIM58、TRIM26和TRIM21),它们属于同一个基因家族。这三个基因在先天性免疫和获得性免疫中执行相似的功能,并在免疫网络系统中相互联系。我们的结果揭示了免疫网络系统中的一系列关键驱动基因。结论总之,我们鉴定了651个SNPs,其中一些是多效性的。如SSC2上的3个SNP与MCV、MCH和p-LCR相关,SSC7上的SS107842725与HCT、MCH和RBC相关。 此外,根据基因的功能注释、位置和已报道的表达变异,我们选择了7个基因作为潜在的候选基因。特别地,三个强候选基因(TRIM58、TRIM26和TRIM21)可能是免疫网络系统中的关键驱动基因。这些发现将进行进一步的研究,以检查在其他不同人群中鉴定的SNPs,并对因果突变的鉴定进行功能验证。
方法
伦理声明
所有涉及动物的操作均遵循中华人民共和国国务院批准的《实验动物管理与使用指南》。
研究群体和表型测量
苏太群体由4头公猪和55头母猪的436只后代组成。每头公猪与13到15头母猪交配,使家庭结构达到平衡。苏州市苏太种猪繁育中心2011年4月、6月、7月共3批仔猪,在2-3个月大时,仔猪被转移到南昌市的一个农场。 苏太仔猪全部去势,分别于出生后18日龄和28日龄断奶。在标准化的饲养和管理方案下,用相同的饮食(根据年龄配制)喂养它们,并让它们自由获得水。在240±6日龄时,在商业屠宰场共屠宰436头苏太猪后代,包括206头母猪和230头阉猪。
当每只动物被宰杀时,立即从每只动物采集5ml血样,并直接注射到含有30μl在聚丁二烯-苯乙烯中的20%EDTA的Eppendorf管中。在中国南昌大学第一附属医院死后24小时,使用CD1700全血分析仪(Abbott,USA)记录一组标准的血液学数据。15个血液学参数,包括8个基线红细胞性状(血细胞比容(HCT),血红蛋白(HGB),平均红细胞血红蛋白(MCH),平均红细胞血红蛋白浓度(MCHC),平均红细胞体积(0 MCV(1,红细胞计数(2 RBC(3,红细胞体积分布宽度-SD(4 RDW-SD(5,和红细胞体积分布宽度(6 RDW(7(8,3白细胞性状(9淋巴细胞计数(0 LYM(1,淋巴细胞计数百分比(LYMA),白细胞计数(WBC)),4个血小板性状(血小板分布宽度(PDW),血小板计数(PLT(0,血小板-大细胞比率(1 P-LCR(2和平均血小板体积(3 MPV(4(5用于进行单标记GWAS。 用http://personality-project.org/r/psych.manual.pdf软件包(R Psych Package)对15项血液学指标进行相关性分析。
基因分型和质量控制使用标准
苯酚/氯仿法从耳组织中提取基因组DNA[46]。对所有DNA样品进行鉴定,并将其标准化为50ng/UL的最终浓度。根据制造商的方案,在iScan系统(Illumina,USA)上对Sutai家系中的总共436个后代和他们的59个父母进行了猪SNP60微珠芯片的基因分型。使用PLINK(版本1.07)[47]进行质量控制,并排除参数为检出率<90%、次要等位基因频率(MAF)<5%、严重偏离HWE(p值<10-5)和孟德尔不一致率>10%的SNPs。此外,缺失基因型>10%或孟德尔错误>5%的个体被丢弃以进行进一步分析。
统计分析
通过Bonferroni校正确定两种关联策略中的全基因组和提示性显著性阈值,其中常规p值除以进行的测试次数[48]。 SNP被认为在p值<0.05/N时具有全基因组显著性,在p值<1/N时具有提示性显著性,其中N是分析中测试的SNP的数量。在本研究中,相应的阈值设定为1.26×10-6(0.05/39786)和2.51×10-5(1/39786)。
单标记GWAS
使用每个SNP的一般线性混合模型测试等位基因和表型性状的线性趋势[49-51]。该模型包括随机多基因效应,方差-协方差矩阵与全基因组状态同一性成比例[52]。模型描述如下:Y=XB+Sα+ZU+E,其中Y是表型向量,B是固定效应(包括性别和批次)的估计量,α是SNP替代效应,U是服从多项分布U~n(0,Gσα2)的随机加性遗传效应,其中G是如Eding等所述基于SNP标记构建的基因组相似性矩阵。[53],σα2为多基因加性方差。 X、S和Z分别是B、α和U的关联矩阵。E是分布为N(0,iσe2)的残差向量。通过R软件中的Genabel软件包进行单标记GWAS[54,55]。
单倍型分析
在Druet&Georges之后,通过PhaseBook[27]使用隐马尔可夫模型构建单倍型,该模型假设存在预定数量的祖先单倍型状态(K=20),群体中的所有单倍型都是从这些状态中衍生出来的[56]。用于单倍型分析的统计模型与单标记GWAS的统计模型相同,只是拟合的是单倍型效应而不是SNP效应[57]。单倍型大致遵循Meuwissen和Goddard[22,31,58,59]的方法,除了假设单倍型完全不相关,而不是拟合更具差异性的血统同一性(IBD)矩阵G。
表型变异分析
通过以下公式计算由检测到的SNP解释的表型变异的分数:
Var%=((MSreducel-MSfull)/MSreduce)*100
其中MSFULL,MSREDUCE1和MSREDUCE分别是包含三个效应(均值、性别和SNP)、包含两个效应(均值和性别)和仅包含均值的线性模型中的均方(MS)。
附加文件
附加文件1:表S1。通过单一标记GWAS描述与血液学性状显著相关的所有已鉴定的SNPs。
附加文件2:图S1。用于血液学性状的单标记分析的曼哈顿图超过了提示的显著性阈值。显示了所有通过质量控制的SNP的log10(1/p-值)值。实线和虚线分别表示Bonferroni校正的全基因组和提示性显著阈值。达到提示性阈值的SNP以绿色突出显示。HCT:红细胞压积;HGB:血红蛋白;MCHC:平均红细胞血红蛋白含量;RBC:红细胞;WBC:白细胞计数;MPV:平均血小板体积。
附加文件3:表S2。通过单倍型分析显示与血液学性状显著相关的所有鉴定的SNPs的描述。
附加文件4:图S2。用于血液学性状单倍型分析的曼哈顿图超过了提示的显著性阈值。 显示了所有通过质量控制的SNP的log10(1/p-值)值。实线和虚线分别表示Bonferroni校正的全基因组和提示性显著阈值。达到提示性阈值的SNP以绿色突出显示。MCH:平均红细胞血红蛋白;MCV:平均红细胞体积;RDW-SD:红细胞体积分布宽度-SD;WBC:白细胞计数。
附加文件5:表S3。15个血液学性状之间的相关性和p值描述。
竞争利益
作者声明他们没有竞争利益。
作者的贡献
LH构思并领导了该研究的协调工作。ZZ和FZ负责数据分析和稿件准备。XY、WZ、HC和YH对采血和屠宰有贡献。FZ、WZ、HC和YH指导基因分型工作并记录血液学数据。XY、ZZ和FZ对结果进行了解释,并对稿件进行了编辑。所有作者都阅读并批准了最终手稿。
作者信息
张峰和张志燕是共同第一作者。
鸣谢
本研究得到了国家自然科学基金(31200926)和国家973项目(2012CB722502)的资助。
收到日期:2013年6月15日接受日期:2014年3月10日发表日期:2014年3月27日
DOI:10.1186/1471-2156-15-41
引用本文:Zhang et al.:中国苏太猪血液学性状的全基因组关联研究。BMC Genemics 2014年15:41。