人类基因组变异协会(HGVS:Human Genome Variation Society)规则是目前学术界所公认的突变命名规则。
从不同的维度出发,相同的基因突变可以有多种不同的表现形式,例如,参考序列的不同、表现层次的不同(DNA、RNA或蛋白质水平)都会导致突变的表现方式产生差异。
目前,通用的参考序列主要包括:基因组参考序列(以前缀“g.”表示)、cDNA参考序列(以前缀“c.”表示)、非编码DNA参考序列 (以前缀“n.”表示)、RNA参考序列(以前缀“r.”表示)、蛋白质参考序列(以前缀“p.”表示)。
参考序列的选择非常重要。在DNA水平描述突变时,内含子与相邻外显子的关系对于临床研究往往非常重要,为了能更好地阐明内含子的变异,通常会选择cDNA作为参考序列,这是因为以cDNA作为参考序列,能够更好的描述内含子中突变碱基与相邻外显子之间的关系。另外,基因突变也常以蛋白质水平的变化进行描述。
举例:
A. 以cDNA为参考序列的突变表达方式
替换:指与参考序列相比,一种碱基被另一种碱基所取代;以符号“>”进行表示;如:c.123A>T,表示与参考序列相比,第123位的A被T所取代;
缺失:指与参考序列相比,一个或多个碱基缺失的现象;以“del”进行表示;如:c.2052delA,表示与参考序列相比,第2052位发生A的缺失;
插入:指与参考序列相比,一个或多个碱基增添的现象;以“ins”进行表示;如:c.5756_5757insAGG,表示与参考序列相比,在第5756 与5757位点之间插入了三个碱基AGG;
缺失插入:指与参考序列相比,一个或多个碱基被其他碱基所取代的现象,并且这种变异不包括替换突变、倒置以及转换突变;以“delins”进行表示;如:c.6775delinsGA,表示与参考序列相比,第6775位缺失了一个碱基,同时缺失的碱基被GA做取代;
重复:指与参考序列相比,包含一个或多个碱基的拷贝以插入的形式直接掺入序列中的现象;以“dup”进行表示;如:c.6_8dupT,表示从第6位到第8位发生了T的重复;
B. 为了更好地理解内含子中碱基突变的表现形式,我们首先来了解一下DNA序列中各碱基所处的位置。从起始密码开始到终止密码为止,外显子序列的编号是连续的,而5'非翻译区、3'非翻译区以及内含子区的编码都是与外显子序列的编码密切相关的。
因此,内含子中碱基的替换、缺失、插入等突变的表现形式就可以分别表示为:
c.36+1G>T(c.36前一段编码区域或者说前面一个外显子的最后一个碱基位于编码区36位,+1代表这个外显子挨着的后面的内含子的第一个碱基);
c.(4071+1_4072-1)_(5154+1_5155-1)del(表示两个外显子之间的序列发生缺失);
c.37+1_37+2insATC(表示在“37+1”与“37+2”位点间插入碱基ATC);
c.4183+795C>T(c.4183前一段编码区域或前面一个外显子的最后一个碱基位于编码区4183位,+795代表这个外显子挨着内含子的第795个碱基) 。
C. 以蛋白质为参考序列的突变表达方式
替换:如p.Trp26Cys,表示第26位的Trp被Cys取代(错义突变);p.Trp26Ter (p.Trp26*),表示第26位的Trp变为终止密码(无义突变);p.Cys123=,表示基因突变之后,氨基酸没有发生改变(同义突变);
缺失:如p.Ala3_Ser5del,表示多肽序列中从第3位的Ala到第5位的Ser发生了缺失;
插入:如p.Lys2_Gly3insGlnSerLys,表示在第2位的Lys和第3位的Gly之间插入了GlnSerLys;
插入缺失:如p.Cys28delinsTrpVal,表示第28位的Cys缺失,同时被TrpVal取代;
5.重复:如p.Ala2[10],表示第2位的Ala重复了10次;
- 移码突变:在起始密码子和终止密码子之间的读码框发生了改变;以“fx”进行表示;如p.Arg97ProfsTer23,表示第97位的Arg是首个发生改变的氨基酸,且Arg变为Pro,同时发生移码突变后,终止密码的位置变为第23位;