近日,国际权威学术期刊《核酸研究》(Nucleic Acids Research)发表了西北工业大学、西安交通大学、哈尔滨工业大学、复旦大学、天津大学等团队合作开发的首个包含细胞类型特异信息的疾病基因数据库,旨在提供病病例与健康对照之间、病例中不同细胞类型之间以及不同病理程度病例之间基因表达的差异。
单细胞RNA测序(scRNA-seq)技术能够以单个细胞分辨率研究复杂生物的转录组,为科学家提供了一种新的工具来研究细胞在表达模式上的异质性,特别是疾病细胞的异质性。另一方面,scRNA-seq的快速发展为探索疾病微环境中的细胞亚群提供了新的思路,有利于研究疾病的发生、发展、耐药性(2)和免疫逃逸。
scRNA-seq技术已被广泛应用于病例对照研究中差异表达基因的识别以及细胞亚群之间差异的识别。许多研究人员利用scRNA-seq鉴定了疾病中基因表达的特异性,例如识别阿尔茨海默病(老年痴呆)中多个神经元细胞亚群的差异表达基因,识别慢性髓性白血病不同阶段癌症干细胞亚群的分子特征,揭示2型糖尿病患者中细胞类型特异性基因表达的变化,等。
随着scRNA-seq在转录组分析中的广泛应用,已经建立了多个scRNA-seq相关数据库。尽管这些数据库为在单细胞水平上研究不同细胞类型和组织中的基因表达提供了便利,但不同疾病中基因表达特异性的数据库仍属空白。
西北工业大学、西安交通大学与哈尔滨工业大学等团队合作,开发了SC2disease数据库,旨在提供病病例与健康对照之间、病例中不同细胞类型之间以及不同病理程度病例之间基因表达的差异。SC2disease数据库提供了一个用户友好的界面,用于浏览各种感兴趣基因的表达,搜索细胞类型marker,以探索多种疾病的生物标志物,比较疾病和非疾病状态下各种细胞类型的表达谱。总的来说,SC2disease (http://easybioai.com/sc2disease/),是用户探索不同细胞类型、组织和疾病中细胞类型特异性基因的综合资源。
细胞类型特异基因及其在人类疾病中的表达是从出版物中手工提取的。这些出版物是在PubMed中搜索诸如‘single cell sequencing’, ‘single cell sequencing disease’, and ‘10x genomics”等关键词获得的。随后,对其相应的人类疾病、实验组织、细胞类型、显著基因及其表达进行了提取和复验。数据收集过程如下所示。
图1.数据收集过程
我们选择了使用高质量scRNA-seq平台研究人类疾病的文献。 这些文献的原始作者已经开发了用于分析其原始数据的特定pipeline,因此我们将其细胞类型特异性基因的结果手动提取到SC2disease中。 此外,为了提高不同研究之间的可比性,我们设计了统一的pipeline重新分析每个研究的基因表达矩阵。 我们还将这些重新分析的结果也放入SC2disease中。
在当前版本的SC2disease中收集了341种细胞类型和29种组织中与25种疾病有关的基因表达。 这些疾病及其实验组织和细胞类型如图2所示。
图2. SC2disease收集了25种人类疾病的细胞类型特异性基因。从29个组织中提取细胞,共计341种细胞类型
SC2disease中总共记录了946,481个条目。 每个条目包含10个部分,用于描述基因与相关疾病之间的关系。 这10个部分包括疾病名称,实验组织,细胞类型,基因名称,用于描述基因表达的变量名称(log2FC或均值),变量的值,差异表达基因(DEG)的比较,PMID,测序平台和详细信息。 “详细信息”部分包含有关细胞类型,疾病和基因的详细信息。
综上,SC2disease的开发为研究基于scRNA-seq的人类疾病相关细胞类型特异性基因提供了重要支撑。
Cite: SC2diseases: a manually curated database of Single-Cell Transcriptome for human diseases, Nucleic Acids Research, 2020.