这是Sanger 研究所 2018 年 发表的在《Nucleic Acids Research》上的关于COSMIC v86 新版本的一篇文章,对 COSMIC 数据库功能和信息进行了介绍。COSMIC 是癌症体细胞突变目录(Catalogue Of Somatic Mutations In Cancer)的缩写 。它是一个综合性的数据库,详细记录了与人类癌症相关的驱动基因。它最近的版本为 COSMIC v86(2018),v86 版本至今已搜集和记录了26000篇文献中140 万个肿瘤样本的 600 万个编码区变异。除了编码区变异,COSMIC 也涵盖了促进癌症的所有体细胞突变机制,包括非编码区变异、基因融合、拷贝数变异和耐药基因变异。COSMIC 采用人工审核的方式扩充数据库,这样可以实时追踪文献的最新信息,将与癌症相关的重要基因优先放入数据库。除了对在线公共网站和下载模块进行提升外,数据库还新增了 COSMIC-3D 功能,研究者可以对三维蛋白结构中的突变进行探索,并能研究蛋白结构和功能的变化,以及对药物的影响。与 COSMIC 的广度和深度相一致,CGC (Cancer Gene Census)是一个精选的与癌症相关的驱动基因目录。目前 CGC 已经收录了719个基因,详细记录了每个基因的功能和驱动癌症的过程,并将其汇总成10个癌症功能特征。
1 引言
COSMIC 汇集了与人类癌症相关体细胞突变的信息。如前所述,COSMIC中的主要数据直接来源于科学文献,由专业的管理员审核,他们阅读和理解文章,并从中提取详细的突变数据和其他相关信息。除此之外,还有与人工审核文献相平行的数据纳入方法,通过对大型癌症门户进行筛选,获得更专业的数据。这两部分数据的结合,使得COSMIC数据库具有无与伦比的广度和深度,也使其成为探索人类癌症突变病因的主要资源。
从2004年最初调查的4个基因,今天 COSMIC 涵盖了每一个人类基因,在 1,391,372 个样本中汇总了5,977,977个编码突变。迄今为止,共有 223 个关键的癌症基因受到科学家的深入、详尽的整理,从26251篇论文中收集信息。这些数据包括了 466 个全基因组,TCGA(癌症基因组图谱)和 ICGC(国际癌症基因组联盟) 的开放数据。COSMIC 的数据每三个月进行一次更新,每年保证四次更新。表1列出了 v86 版本(2018年)的汇总数据。
COSMIC 数据主要汇总在综合网站,基因的信息以交互式可视化和基因直方图的方式进行展示,如图1所示。COSMIC的补充信息以数据集和工具的形式进行补充。COSMIC 细胞系项目涵盖了 Sanger 研究所的 1015 个细胞系的全外显子测序数据和分子谱数据,旨在系统地描述大量癌症细胞系的遗传学和基因组学特征。癌症基因普查库(CGC 网址)描述了与人类癌症具有强证据等级的基因。COSMIC-3D 是一种新的工具,它将序列的突变数据与蛋白质结构数据库进行了连接,便于结构、功能和药物性分析。
2 COSMIC内容
2.1 CGC 数据库
CGC 是 COSMIC 数据库中记录与癌症有因果关系的体细胞和生殖细胞突变基因数据库,该数据库一直在持续更新。与最初记录291个癌基因相比,最新版本的CGC (COSMIC v86) 包括了 719 个基因,并记录了基因对疾病病因的贡献,在癌症中导致基因功能障碍的突变类型,以及观察到突变频率增加的癌症类型。
寻找 CGC 候选基因的第一步是查找癌症基因典型的体细胞突变模式。在确定了候选基因后,将进行全面的文献综述,以确定该基因的生物学功能,并确定基因突变如何导致该基因的功能障碍,以促进致癌转化。在这一阶段,该基因可以分为致癌基因、肿瘤抑制基因(TSG)或者两者兼有。如果在致癌融合基因背景下,这样的基因被归类为“融合基因”。
CGC 最近一次进行了大规模的基因扩张,为了更好的分类,根据基因支持致癌作用的证据力度,将 CGC 基因分为两个“层级Tier”。Tier 1 基因的特征是存在突变模式,在癌症病理学中有强证据支持,存在基因功能障碍影响癌症特征的证据。Tier 1 基因的确定要求至少两个独立小组的两篇论文,在至少一种癌症类型出现。此外,至少有两篇独立的论文必须提供该基因参与驱动癌症过程的生物功能证据。
Tier 2基因是有大量文献证据表明其参与肿瘤的发展,但是没有强证据支持突变模式和功能。这些证据需要至少两名博士科学家独立评估,来确定一个基因是Tier 1 或者 Tier 2 类型。
在最新的COSMIC版本(v86)中,CGC库共包括了719个基因。在这些基因中,554个基因与致癌和/或肿瘤抑制相关, 包括72个能根据组织来源、肿瘤分期和环境因素促进或抑制肿瘤发生的基因。约134个基因发现仅作为融合 partners 促进癌症,而31个Tier 2 基因的确切作用有待确定。
CGC 中有一个新的模块,是与Open Targets 合作开发的,它专注于癌症基因功能的描述。从实验研究数据审查和策划描述每个基因影响癌症的10个特征(hallmarks)。这些信息都呈现在 hallmark 页面,并配有正常基因功能的介绍及基因突变对基因功能的影响。
如图2所示,涉及到癌症的每一个相关特征,都有明确的特征,表明野生型蛋白质是否促进或抑制每一个特征。所有的信息都通过页面上提供的PubMed链接到文献来源。
2.2 专家审核基因和详细文件记录
专家审核收录的基因优先从 CGC 数据库的 Tier 1 层级基因中选择,每个季度数据库更新时也会发布包括新的专家收录基因数据。为了应对新的癌症数据的不断增加,COSMIC 专家管理员完成了以特定的基因或疾病为中心,针对每个数据库发布的集中管理工作,使得能快速全面的发现科学文献的更新。如果一个基因被设定为专家收录基因,需要对文献进行搜索,以确定任何与该基因相关的突变数据都进行了覆盖。GNAS, GNAQ, GNA11, CTNNB1, TET2, SMAD4, VHL, PIK3CA, TERT 这些基因从2016年11月后被进行了收录。集中收录现在也应用于表型,更新与特定癌症有关的突变数据,以更好呈现该癌种的突变详情。胶母细胞瘤是成人大脑中最常见的恶性原发肿瘤,被选为最新集中收录的癌种,其数据来自于 COSMIC v86 版发表的70份新出版物。
自2016年以来,COSMIC 已经包括了耐药基因,这些基因新发生的体细胞突变可以使肿瘤逃避治疗性癌症药物。这些突变是在对相关文献进行广泛回顾后整理的,基于足够的公开证据,最终确定为耐药突变。COSMIC v86 包含了 24 种药物的耐药突变谱,详细描述了2134种耐药肿瘤中的360个耐药等位基因突变。最近增加了针对非小细胞肺癌的克挫替尼和卡马替尼中的 MET 基因的耐药突变。
COSMIC 数据库除了获取癌症基因的核心信息外,它也包括了患者的临床信息、疾病和治疗等相关的信息。它们被当做是个人、肿瘤或样本的特征进行整理和展示。在从出版物中整理信息时会尽可能多的包括这些数据点。
对个体进行筛选的特征包括年龄、队列、性别、种族,以及既往肿瘤相关的治疗史。个人是否来自家族综合症,如家族性腺瘤息肉病,这可能与肿瘤抑制基因(如 APC)的种系突变相关。吸烟状况和酒精摄入量被列为重要的环境变量,辐射暴露也是如此,紫外线,病毒和寄生虫,化学物质/粒子。其中许多数据点是表型特异性的,如紫外线照射在黑色素瘤和宫颈癌中的人类乳头瘤病毒。在肿瘤水平,特征包括分期和分级,以及任何已报告转移的组织部位。
2.3 COMSIC-3D 数据库
随着 COSMIC 数据库中突变数据的覆盖范围显著扩大,网站也正在添加新的工具,以帮助人们理解癌症遗传学,并驱动癌症变异数据生成假设。其中一个工具是COSMIC-3D,一个在三维蛋白质结构背景下理解癌症突变的平台,如图3所示。COSMIC-3D将错义突变、阅读框缺失、无义突变映射到蛋白质序列和结构。COSMIC 突变首先映射到UniPort序列,然后映射到 wwPDB 蛋白质结构。这些数据是通过COSMIC-提供的3D web界面,可交互探索蛋白质序列和蛋白质结构背景下的癌症突变数据,便于显示、理解和分析癌症突变的影响。
3 COSMIC 信息获取
3.1 网站
COSMIC 分为 主网站 和几个子网站。第一个主站点包含了专家整理的科学文献数据以及大规模全基因组研究的数据。另一个平行的站点展示了来自COSMIC 细胞系项目。CGC 提供了人口普查中已知的719个致癌基因的详细信息,并提供了主要COSMIC网站的链接,对Tier 1等级基因,则提供了Hallmark功能描述的链接。COSMIC-3D 网站允许在蛋白质结构背景下可视化COSMIC突变数据。
如图4所示,主站点的外观进行了更新,提高了可用性和导航性,同时维护了网站的核心功能,如癌症浏览器、基因组浏览器和基因直方图。菜单也提供了基因组版本之间的切换(GRCh37 和 GRCh38)。
3.2 数据下载
所有COSMIC, 细胞系, CGC 和 COSMIC-3D 数据都可以通过各自的网站免费获得。网站中的大多数表格数据能被下载为逗号或制表符分隔的CSV/TSV)文件。除核心编码区突变外,还提供了按变异类型分类的多个文件,包括结构变异、非编码变异、基因融合、基因表达水平、甲基化数据和抗性突变。对于COSMIC细胞系项目,下载文件提供拷贝数数据,平均倍性,QC数据,序列覆盖率统计和基因型等数据。
为了下载 COSMIC 数据,所有用户必须注册一个 COSMIC 帐户。学术用户和非营利组织的用户可以免费下载 COSMIC 的数据,但是为了支付管理和基础设施费用,对以营利为目的用户需要征收许可费。
可以通过 主下载链接下载 COSMIC 和 CGC 库的数据。登录后用户可以从这些页面下载这些文件,对于某些文件,用户也可以选择只下载文件的一部分,根据基因、样本或癌症类型进行过滤。
4 参考文献
[1]COSMIC: the Catalogue Of Somatic Mutations In Cancer.[J]. Nucleic Acids Research, 2018.