目的:
利用高通量测序数据进行致病基因的挖掘,可根据样本情况采用不同的分析方法,但无论哪种方法最终都将面临从众多confounder中筛选出候选基因(narrow down)并验证基因与表型关系的问题。基因功能验证包括两个阶段:首先利用生物信息学手段缩小候选基因范围,建立基因和表型关系,构建遗传假说;然后通过实验验证功能、确认假说。
1 利用生信分析手段进行候选基因功能验证
第一阶段主要目的就是排除干扰,确定关联,可以从多个层面进行:
1.1 根据变异位点人群频率
如果上游候选基因筛选的方法定位到的是突变位点,且不包含人群频率过滤(例如利pVVAST用连锁分析定位的候选基因)则需要考虑一下候选基因上的有效突变位点在人群中的频率。该分析需要根据项目情况选择过滤的数据库:推荐1000g、EXAC、genomeAD,可以选择同时使用多个数据库或者使用数据库中的某个子库(如1000g东亚人人群频率)。频率阈值需要根据疾病的发病率确定,若是常见病(例如糖尿病)可以将阈值设的高些。
1.2 基因功能概览
科学研究要站在巨人的肩膀上,所以要充分利用已知数据来辅助自己工作更高效 是进行。这一步主要是通过文献和数据库查找候选基因的注释信息,并确定本次分析有没有定位点前人已报道/验证的基因。文献的查找每个人都有自己的方法,不在这里叙述。要想全面综合的了解一个基因推荐使用genecard。
当研究一个基因功能时,首先应该知道这个基因的研究的进展,如该基因是否与待研究性状/疾病相关,它在各种细胞系或者组织中的表达,它的产物能与哪些蛋白质相互作用,参与了哪些细胞通路,这样才能不会制造相同的轮子。当然可以根据想了解的相关信息查询相关文献或者相关数据库或者网站,但这件就有可能需要看很多文献或者网站。GeneCard是一个全面的,综合的收集所有已知的或者预测人类基因。它整合跟基因相关的基因组、转录组、蛋白质组、临床等相关信息,收集整理了超过100个网站的数据。利用GeneCard可以全面的了解基因的基本信息,免去很多麻烦。
网址:http://www.genecards.org/
使用说明:
a)在搜索框中输入基因即可
b)在检索到的基因中选择目标基因,一般都是第一个基因
结果展示:
该数据的结果以文本形式展示, 相应的结果有数据库链接,可以查看细节,示例如下:
如果想了解搜索结果中每一块的内容可以参考:
1.3 待研究基因与表型相关性确认
人类疾病遗传的基础是精确医学和药物发现的核心。数据的可用性、碎片化、异构性和概念描述的不一致性是疾病机制研究必须克服的问题。DisGeNET 正是为了帮助科研工作者克服这些障碍而开发的数据库,它收集了大量与人类疾病(Mendelian, complex and environmental diseases)相关的变异和基因。DisGeNET整合了公共数据库、GWAS目录、动物模型和科学文献的数据。该数据库的收据采用了统一的标准进行注释。此外,还提供了一些原始指标,以帮助确定基因型与表型关系的优先级。可以通过web接口、Cytoscape应用程序、RDF SPARQL终端、几种编程语言的脚本和R包访问这些信息。 DisGeNET是一个多功能平台,可用于不同的研究目的包括特定的人类疾病的分子基础及其并发症的研究,致病基因特性分析,辅助构建药物治疗作用及药物不良反应假说,疾病候选基因的验证及文本挖掘方法的评价性能。目前最新版本的DisGeNET 为v6.0,它收录了17,549 个基因和 24,166 个diseases, disorders, traits, 及clinical or abnormal human phenotypes 间的628,685 个gene-disease associations (GDAs)。同时还收录了117,337 个变异和 10,358 个疾病、性状、表型间的210,498 variant-disease associations (VDAs)。可以通过疾病、基因或变异进行搜索。此外,该平台还提出了一个可以通过Cytoscape软件运行的插件。
网址:http://www.disgenet.org/home/
使用说明:
a)打开网页,点击search
b)检索:在1区选择检索关键字类型,可以是疾病、基因、变异,在2区输入待检索词,多个检索词之间用::分隔。
结果示例:
第二列会列出与该基因相关所有的疾病,除此之外还会给出该疾病的分类信息,以及相关性的分值、文献首次报道和最后报道的时间。部分有链接,可以通过链接查看详情。这个文件可以下载,结果以电子表格形式存在,一个基因一个sheet。其中N. PMIDs 列表示关联证据的条目数,点该列的数字就能看到具体证据,由此可以判断可靠性,示例如下:第一个框中是证据数据库来源,第二个是证据明细。
1.4 基因功能富集分析和pathway富集分析
GO是Gene ontology的缩写,GO数据库分别从功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述,即对基因产物进行了简单的注释。Gene Ontology可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。 功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。pathway指代谢通路,对候选基因进行pathway分析,可以了解候选基因参与的代谢通路是否与表型相关,能够辅助确认候选基因,也可以用来挖掘待研究性状/疾病的遗传基础和发病机制。
GO与KEGG富集分析,往往同时出现在不同场合,DAVID,是一款经典的基因富集分析网站,主要用于候选基因的功能和通路富集分析,但相比之下,KOBAS画出的图更赏心悦目,但KOBAS不支持直接输入gene symbol ,所以需要联合使用DAVID和KOBAS。
网址:
KOBAS:http://kobas.cbi.pku.edu.cn/anno_iden.php
DAVID:https://david.ncifcrf.gov/
使用说明:
a):进入入DAVID首页,然后点击Start Analysis;
b) 输入基因名,并在select identifier中选择official_gene_symbol,然后在gene type中选择type list,最后点击submit list;
c) 根据自己研究物种的类型进行选择,人的话list和background中的物种都选择homo sapiens;
d) 由于下游的富集分析需要使用gene ID,需要进行基因名到基因ID的转换;
e) 下载转换后的结果;
f) 复制转换后的ID号,为富集做准备;
g) 把转换后的ID输入网站http://kobas.cbi.pku.edu.cn/anno_iden.php,根据研究对象类型,进行相应选择;
h) 选择KEGG Pathway与GO,点击Run;
结果示例:
得到富集结果如下:
点击任意Term,便可得到相应的pathway,下图为CELL CYCLE 的通路。
1.5 蛋白互作分析
蛋白互作网络(protein protein interaction network,PPI network)分析有助于从系统的角度研究疾病分子机制、发现新药靶点等,在候选基因筛选时也能提供基因和表型相关的证据。STRING是一个PPI研究及预测的经典网站,它是一个搜索和预测蛋白质之间相互作用关系的数据库。蛋白质之间的相互作用包括了直接的物理相互作用和间接的功能相关性。可按照蛋白质名称,氨基酸序列等信息进行检索某个特定的蛋白质相互作用的其他蛋白质。
使用方法:
a)进入首页,点击search开始搜索,可以用蛋白名,也可以用 序列。同时该工具支持多蛋白的搜索。
b)输入基因列表点击搜索
结果展示:
检索结果页面。圆圈代表蛋白质,直线代表蛋白质之间相互作用。点击圆圈可以查看蛋白质相关信息;点击直线可以查看蛋白质相互作用信息。
Setting中可以设置网络边所代表的意义:evidence:不同颜色的线表示不同证据;confidence:两个蛋白质相互作用越强连线越粗;molecular actions:不同颜色和形状的线表示不同的相互作用;Setting中也可以设置网络边的来源。STRING数据库中网络边的来源包含实验数据、从PubMed摘要文本挖掘的数据、数据库数据,还有利用生物信息学的方法预测的结果。所应用的生物信息学方法有:基因邻接、基因融合、系统发生谱和基于芯片数据的基因共表达。该系统利用一个打分机制对这些不同方法得来的结果给予一定的权重,最终给出一个综合得分。得出的结果可以用cytoscape根据互作情况进行高级展示。
1.6 变异位点保守性分析
保守序列一般预示其具有潜在的功能,或在细胞发育及调控方面可能发挥重要作用。一般来说编码区序列是高度保守的,尤其是启动子及转录起始位点(TSS)具有极高的保守性。保守性分析可通过不同物种间蛋白序列多序列比对进行分析和展示。
网址:
Uniprot:https://www.uniprot.org/
ClustalW:https://www.ebi.ac.uk/Tools/msa/clustalw2/
使用方法:
a)打开Uniprot,输入待检索基因
b)搜索后,选择所需比对的物种条目,以下以Mouse为例进行检索(可以选择多个物种)。
c)点击Sequence,下载FASTA格式数据
d)用clustalw或者BioEdit进行多序列比对。以clustalw为例,先打开网页,选择多序列比对
e)选择比对的方法,上传序列进行比对
结果示例:
1.7 功能结构域分析
序列决定结构,结构决定功能,蛋白质是基因功能的体现者和行使者,故蛋白结构是蛋白质行驶生物雪功能的基础,对基因编码的蛋白质的功能域分析将为基因功能的预测提供极有价值的信息。使用SMART或PROSITE数据库可以进行蛋白质功能域的分析,可以对结构域分析结果进行图形展示https://prosite.expasy.org/mydomains/
网址:
SMART:http://smart.embl-heidelberg.de/
PROSITE:https://prosite.expasy.org/
使用方法:以SMART为例
a)打开网页,选择normal 模型还是genomic模型。这两个模型主要区别在于二者使用的数据库不同。Normal SMART使用数据库包括 Swiss-Prot, SP-TrEMBL 以及 stable Ensembl proteomes; Genomic SMART仅使用完全测序的物种的蛋白组,多细胞生物来自于Ensembl数据库,其余来源于Swiss-Prot数据库。
b)输入待查询蛋白序列(或者ID/ACC),提交分析
结果示例:以muc19为例,结果如下:
该分析使用两种方法展示结果:1,示例图形式展示了该基因的结构域概览;2,表格形式展示了每个结构域的详情,点击链接可以获取更多信息。
1.8 基因的时空表达谱和亚细胞定位分析:
基因表达的时空性是指基因的表达在个体发育的不同阶段以及在个体的不同组织和细胞类型中均不相同,是有机体发育、分化、衰老等生命现象的分组基础,基因表达的时空特异性特征为基因与表型相关性研究提供了重要信息:如果基因在表型相关器官中表达则可以进一步研究基因和表型的关联性,若在相关器官不表达,则也可作为排除候选基因的证据。可以从mRNA和蛋白两个水平上进行研究。大部分细胞生命活动发生在蛋白质水平上,而不是mRNA水平上,且很多研究指出mRNA水平变化和蛋白质水平变化的一致性很差。
Human Protein Atlas 数据库,简称HPA数据库,它致力于提供全部24,000种人类蛋白质的组织和细胞分布信息,并免费提供公众查询。创立这个数据库的瑞典 Knut & Alice Wallenberg基金会使用特制的抗体,用免疫组化的技术,检查每一种蛋白质在48种人类正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员阅读和标引。这些受检组织来自144个不同个体和216个肿瘤组织,保证染色结果具有充分的代表性。这是一个大规模蛋白质研究项目,主要目的是绘制人体组织和细胞中表达基因编码的蛋白位置。由三个独立的部分组成,每个部分都集中在人类蛋白质全基因组分析的特定方面。组织图谱显示蛋白质在人体内所有主要组织和器官中的分布,细胞图谱显示蛋白质在单细胞中的亚细胞定位,最后是病理学图谱显示蛋白质水平对癌症患者存活的影响。人类蛋白质图谱计划已经为人类生物学和疾病领域做出了巨大的贡献,由ELIXIR(www.elixir-europe.org)组织选择作为欧洲核心资源,更广泛的应用于生命科学界。
网址:https://www.proteinatlas.org/
HPA数据库路径:proteinatlas.tsv(有需要的可自行下载注释或者私信小编索取)
结果示例:
Gene:基因名
Gene synonym:基因别名
Ensembl: Ensemble数据库蛋白ID
Gene description:基因描述信息
Chromosome:染色体编号
Protein class:蛋白质类型
Evidence:证据水平
Antibody:抗体名称
Reliability (IH):可靠性(免疫组化)
Reliability (IF):可靠性(免疫荧光)
Subcellular location:亚细胞定位
RNA tissue category:组织水平特异性表达情况
RNA TS TPM:表达组织的TPM值
TPM max in non-specific:TPM最大值(非组织特异性)
RNA cell line category:细胞系表达特异性
1.9 动物模型查询
候选变异位点,基因在动物模型中的研究表现,有助于我们后期实验验证的动物模型设计。MGI是实验室小鼠的国际数据库资源,提供综合的遗传、基因组和生物数据,以促进对人类健康和疾病的研究。对这一资源作出贡献的项目。
网址:http://www.informatics.jax.org/
使用方法:
a)进入网页,选择模型类型,以小鼠模型为例
b)可以以基因、表型、基因组位置为检索词进行检索,候选基因分析选择Gene。
c)结果包含三部分:同源基因和表型矩阵、基因、疾病;同源基因和表型矩阵可以初步判断基因和哪类疾病相关。
d)在“disease”的第一列是疾病/表型信息,选择自己研究的疾病,在“Mouse Models”列中有数字,表示模型个数,点击进去查看详情
e)查看列出来的小鼠模型中有没有包含待研究突变位点。
结果示例:若待研究位点位于小鼠模型包含区域内,则可根据小鼠模型的表型情况进一步验证候选基因。
2 实验验证
经过生物信息分析对基因功能进行合理的预测后,可以进一步锁定候选基因,但要真正确认基因功能还需要通过实验方法进行验证,并进一步外延生物信息学的研究结果。功能研究应从完整的分子-细胞-个体三个层次研究, 综合分析.
基因的亚细胞定位和时空(发育期或梯度药物处理浓度, 不同组织/器官)表达谱;
基因在转录水平的调控:可以通过genome walking PCR或通过已有的资源库寻找该基因的启动子等转录调控区域, 通过单杂交或ChIP等技术, 寻找该基因的转录调控蛋白。
细胞生化水平的功能研究:也就是蛋白蛋白作用复合体的寻找验证,具体方法有酵母双杂交, GST pulldown, co-IP, BRET, FRET, BiFc等等,对该基因的表达产物做一个细胞信号转导通路的定位
功能获得(gain-of-function)与功能失活(loss-of-function): 也就是分别在细胞和个体水平,做该基因的超表达和knockdown(或knockout), 从表型分析该基因的功能。gain-of-function是指将基因直接导入一个细胞或个体(如小鼠),使得该基因在机体内表达,从而鉴定基因功能,包括转基因、过表达、CRISPR等;loss-of-function指通过外界干预让原本表达某一基因的细胞或者个体的该基因功能部分或全部失活,通过观察细胞生物学行为或者个体表型遗传性状在基因功能失活后的变化,来鉴定基因的功能,包括RNA干扰、基因敲除等。
*原创文字,如果觉得对你有帮助留下你的赞哦~*