1.核酸,基因,DNA,染色体,基因组,同源染色体,等位基因
核酸,基因,DNA,染色体
核酸:一种通常位于细胞核内的大型生物分子,主要负责生物体遗传信息的携带和传递。核酸有两大类,分别是脱氧核糖核酸(DNA)和核糖核酸(RNA)。核酸的单体结构为核苷酸。每一个核苷酸分子由三部分组成:一个五碳糖、一个含氮碱基(A,T,C,G,U)和一个磷酸基。如果五碳糖是脱氧核糖则为脱氧核糖核苷酸,此单体之聚合物是DNA。如果其五碳糖是核糖则为核糖核苷酸,此单体之聚合物是RNA。
基因(gene):是指一段能够编码基因产物(RNA或蛋白质)的核苷酸序列(ATCG)。能编码出蛋白质的是编码基因,能编码出RNA的是非编码基因。弄清其序列本身的过程叫基因测序。基因产物可以是蛋白质(蛋白质编码基因)及RNA,从而控制生物个体的性状(差异)表现。在一个个体当中所有的基因总和叫基因组。在一个物种中所有等位基因的总合叫基因库。在大多数真核生物中,基因分为细胞核基因及线粒体基因,绿色植物的叶绿体也含有独立于细胞核的叶绿体基因组。
在某一细胞类型当中所有被表达的基因叫转录组,所有编码蛋白质的基因叫蛋白质组。
管家基因:在生物体生命的全过程都是必须的,且在一个生物个体的几乎所有细胞中持续表达的基因。
C值悖论:物种的基因组大小与遗传复杂性并不是线性关系,与进化的复杂性也并不一致。
DNA:是一种生物大分子,由四种脱氧核苷酸分子按照一定数目和顺序组合而成,是一条长链分子。基因则是DNA分子上具有遗传效应的DNA片段(一般来说)。一个DNA分子上有很多个基因。
DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP(ATCG)按照碱基互补配对原则合成新链DNA,DNA复制:模板为双链DNA,合成的新链与模板链一模一样,原料为四种dNTP,为半保留复制。
脱氧核苷酸是DNA的基本组成单位,基因是DNA上有遗传效应的DNA片段,DNA是染色体上的存在物。基因是直线排列在染色体上。
基因是具有遗传效应的DNA片段,存在于DNA上,真核生物的DNA存在于染色体上,基因是构成染色体的最小单位,染色体只能存在于真核生物的细胞核中。基因存在于细胞核和细胞质中,也存在于真核生物和原核生物中,真核生物的DNA存在于细胞核、叶绿体和线粒体中。
染色质:由组蛋白和 DNA 组成,147 个碱基对的 DNA 缠绕在 8 个核心组蛋白周围,形成基本染色质单元,即核小体。
染色质的功能是将 DNA 高效包装成小体积,以适合进入细胞的细胞核,保护 DNA 结构和序列。将 DNA 包装到染色质中可确保有丝分裂和减数分裂,防止染色体断裂,并控制基因表达和 DNA 复制。
DNA 缠绕在组蛋白周围,形成核小体;核小体再结合成染色质纤维。1)未包装的 DNA。2)DNA 缠绕组蛋白八聚体,形成核小体。3)核小体压缩成染色质纤维。
异染色质是染色质的 紧密排列 形式,可以沉默基因转录。异染色质构成 着丝粒、端粒、中心周围区域和富含重复序列的区域。常染色质 凝缩 较少,含有活性最强的转录基因。可看下图理解常染色质和异染色质。
端粒(Telomere):存在于真核细胞线状染色体末端的一小段DNA-蛋白质复合体,作用是保持染色体的完整性和控制细胞分裂周期。端粒、着丝粒和复制原点是染色体保持完整和稳定的三大要素。端粒学说:处于染色体末端的端粒会随着细胞的分裂复制不断缩短,直至临界长度,此时细胞失去活性而死亡,因此端粒的缩短意味着细胞的衰老。
着丝粒:又称中节, 染色质的结构,将染色体分成分为短臂(p)和长臂(q),主要作用是使复制的染色体在有丝分裂和减数分裂中可均等地分配到子细胞中。由高度重复的异染色质组成,其主要成分为DNA和蛋白质。
在很多高等真核生物中,着丝粒看起来像是在染色体一个点上的浓缩区域,这个区域包含着丝点,又称主缢痕。着丝粒和动粒是存在于主缢痕的两个特殊结构。中期染色体的两条姐妹染色单体的连接处,有一向内凹陷、着色较浅的缢痕,称为主缢痕(初级缢痕primary constriction)。
随体(satellite):位于染色体末端的、圆形或圆柱形的染色体片段, 通过 次缢痕 与染色体主要部分相连,主要由异染色质组成,含高度重复的DNA序列,不具有常染色质的功能活性。
基因组,同源染色体,等位基因
基因组:细胞或生物体的一套完整单倍体的遗传物质总和。
单倍体:物种的细胞中只有一套染色体的为单倍体。(例:人的精子和未受精的卵子中都只有一套23条染色体,精子细胞和未受精的卵子细胞为单倍体)
双倍体:物种的细胞中有两套染色体的为双倍体。(例:人的体细胞有23对共46条染色体,每23条为一套,人的体细胞为双倍体)
多倍体:细胞中有n套染色体的为多倍体(n大于或等于3)。
同源染色体:
国外教材:真核生物体细胞中成对存在的染色体称为同源染色体。一对同源染色体上有控制同一性状的基因,这些基因的排列顺序相同,等位基因之间具有相似的序列,所以一对同源染色体彼此具有高度相似的序列,但不一定完全相同。
国内教材:同源染色体在二倍体生物细胞中,形态、结构基本相同,在减数第一次分裂的四分体时期中彼此联会(若是三倍体及其他奇数倍体生物细胞,联会时会发生紊乱),在这一对染色体其中的一条来自母方,另一条来自父方。
染色体组:一组非同源染色体,携带着控制生物体生长,发育,遗传和变异的一套信息。
交叉互换:在四分体时期,非姐妹染色单体之间发生交叉互换,导致基因重组。
区分同源染色体与姐妹染色单体:姐妹染色单体是由一个着丝点连着的两条染色单体,是在细胞分裂的间期由同一条染色体经复制后形成的,两条染色单体的DNA序列完全一致。它们形状大小,DNA序列完全相同(不考虑复制出差错),但并非一条来自父方、一条来自母方,所以姐妹染色单体不是同源染色体。同源染色体的两条单体的DNA序列不相同,并且分别来源于父母体。
等位基因:在真核生物中,染色体在体细胞中是成对存在的。每条染色体上都带有一定数量的基因。等位基因(allele),是指位于一对同源染色体相同位置上控制同一性状不同形态的基因。等位基因依所携带性状的表现,又可分为显性基因A和隐性基因a。每个个体分别遗传自父方和母方的等位基因的不同,两等位基因 A 和 a 四种组合方式,决定表现出来的性状也就不同,所以生物与生物之间长得就有一样之处也有不一样之处。
2.转录,翻译,mRNA,转录组,转录本,可变剪切,最长转录本,lncRNA
基因表达:生物基因组中结构基因所携带的遗传信息经过转录、翻译等一系列过程,合成特定的蛋白质,进而发挥其特定生物学功能和生物学效应的全过程。说白了基因表达就是转录,翻译。
转录:遗传信息从DNA流向RNA的过程。即以双链DNA中的确定的模板链(模板链用于转录,编码链不用于转录)为模板,以A,U,C,G四种核糖核苷酸为原料,在RNA聚合酶催化下合成RNA的过程。合成的新链除了把DNA上的T改为U外,其他与编码链一样。生成的mRNA携有的密码子,进入核糖体后实现蛋白质的合成。
转录仅以DNA的一条链作为模板,被选为模板的单链称为模板链,亦称无义链;另一条单链称为非模板链,即编码链,因编码链与转录生成的RNA序列T变为U外其他序列一致,所以又称有义链。
翻译:以mRNA为模板,在核糖体内合成蛋白质。原料为20种游离的氨基酸,3个碱基决定一个氨基酸。将成熟的mRNA分子(由DNA通过转录而生成)中“碱基的排列顺序” 解码,生成对应的特定氨基酸序列的过程。但转录生成的非编码RNA,如长链非编码RNA(lncRNA)、转运RNA(tRNA)、核糖体RNA(rRNA)和小核RNA(snRNA)等并不被翻译为氨基酸序列。
翻译过程需要的原料:mRNA、tRNA、20种氨基酸、能量、酶、核糖体。翻译的过程大致可分作三个阶段:起始、延长、终止。
翻译主要在细胞质内的核糖体中进行,氨基酸分子在氨基酰-tRNA合成酶的催化作用下与特定的转运RNA(tRNA)结合并被带到核糖体上。生成的多肽链(即氨基酸链)需要通过正确折叠形成蛋白质,许多蛋白质在翻译结束后还需要在内质网上进行翻译后修饰才能具有真正的生物学活性。
mRNA:messengerRNA,信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。 在细胞内,mRNA通过核糖体的翻译作用,将基因编码的信息转化为氨基酸序列,从而合成相应的蛋白质。
反义RNA:碱基序列正好与有意义的 mRNA 互补的 RNA。
转录组:一般是指从细胞或组织的基因组所转录出来的RNA的总和,包括编码蛋白质的mRNA和各种非编码RNA (rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等)
转录本:是指由一条基因通过转录,由于可变剪切形成的一种或多种可供编码蛋白质的成熟mRNA(狭义)非编码RNA(Non-coding RNA)如lncRNA也有转录本的说法
tRNA(转运RNA):tRNA是一种较小的RNA分子,其主要功能是将mRNA编码的氨基酸序列转运到核糖体上,帮助合成蛋白质。tRNA分子上有与氨基酸对应的“反密码子”,通过与mRNA上的密码子互补配对,确保核糖体合成蛋白质时按正确的顺序添加氨基酸。
rRNA(核糖体RNA):rRNA是构成核糖体的RNA分子,核糖体是细胞中负责蛋白质合成的重要器官。rRNA通过与蛋白质相互作用,形成核糖体的功能中心,具有将tRNA和mRNA组装在一起,并促进氨基酸的连接,从而合成蛋白质的作用。
蛋白质:蛋白质是基因表达的最终产物,承担着细胞结构和功能的重要作用。蛋白质的合成依赖于mRNA、tRNA和rRNA的协同作用,经过翻译过程从氨基酸序列合成成形。不同的蛋白质在细胞中扮演着不同的功能,包括酶的催化、结构支撑、免疫应答等多种生物学功能。
可变剪切(Alternative splicing):一条未经剪接的前体hnRNA,要将非编码蛋白质的内含子(intron)切除(并不是所有长度的内含子都被切除了,对应可变剪切类型之一内含子保留,retained Intron与两侧的外显子一起形成了新的外显子),同一基因中的很多个外显子以不同形式进行随机组合(在剪切的过程中是有可能剪切掉一些外显子的),使一个基因在不同时间、不同环境中能够制造出不同的蛋白质,增加生理状况下系统的复杂性或适应性。这个过程有多种多样的剪切和拼接方式(选择不同的剪接位点),从而产生不同的剪切异构体(isoform)。
7种可变剪切类型:https://www.biowolf.cn/m/view.php?aid=258
理论上,来自成熟mRNA的reads应该比对到外显子区。但是,由于基因组注释水平高低或者可变剪切导致的内含子序列保存(内含子保留RI),以及很多RNA(比如lncRNA)就来自基因间区和内含子,因此有比对到内含子和基因间区的reads。受物种等的影响RNA-seq测序reads数外显子覆盖所占比例不同,一般情况下外显子区域所占比例超过70%即比较理想。
最长转录本:由于可变剪切一个基因得到好多个序列长度不同的转录本,应该挑选出序列最长的最长转录本作为数据的分析
lncRNA:和mRNA一样,是由对应的基因转录而成,通过剪接形成成熟体的lncRNA,具有5'帽子和poly尾巴(有些会没有)。同一基因可以形成不同的转录本的lncRNA。在lncRNA所对应的的DNA序列上,包含内含子和外显子,转录之后的转录本,经过剪接等作用,外显子,内含子拼接到一起成为一个成熟的lncRNA(lncRNA对应的转录本剪切会保留内含子)。但是它因为缺乏可识别的阅读框,所以不表达蛋白。
编码基因和非编码基因
除了用于指导合成蛋白的基因,即通常所说的编码基因,还有终产物是RNA的基因;后者不指导生成蛋白质,而是以RNA的形式起作用,常被称为非编码基因。非编码基因通常起调控作用。
3.外显子,内含子
基因DNA分为编码区和非编码区,编码区包含外显子和内含子,非编码区包括前导区(5‘UTR)、尾部区(3‘UTR)、调控区,调控区又包括启动子、增强子、终止子等。真核生物非编码区位于编码区的上游和下游,故又称侧翼序列。编码区则转录为mRNA并最终翻译成蛋白质。真核生物的基因含有外显子和内含子,是前者区别原核生物的特征之一。
基因转录之后,首先是形成前体mRNA(或pre-mRNA),通过剪切内含子连接外显子,5’端加帽及3’端加尾之后形成成熟的mRNA。真正编码蛋白质的是外显子,内含子无编码功能。内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。
内含子和外显子的概念都是针对DNA序列而不是RNA序列的。内含子和外显子的分界线在于:GU-AG法则。即每个内含子的开始两个碱基都是GU(或GT),最后两个是AG。
基因经过转录形成Pre mRNA,这里面包含着内含子和外显子(5端是以外显子打头,但是这段外显子不仅包含CDS,还包含5' UTR;3端是以外显子结束,但是这段外显子不仅包含CDS,还包含3' UTR),经过剪接形成成熟mRNA,内含子已减掉,如果抛开后来加上去的cap和poly A的话,这时全是外显子,但是不全是CDS,因为只有中间的那部分以起始密码子AUG开始、以终止密码子结束的片段才是CDS,只有这部分才会被翻译成蛋白质。
外显子拼接形成成熟的mRNA,mRNA的长度要大于CDS,只有CDS才编码蛋白,即 外显子不一定都能翻译成蛋白: mRNA包括UTR和CDS
外显子与CDS区不是完全一致的,cds区一定属于外显子,但是外显子不一定是CDS区,可能还包括UTR
一个外显子经常编码蛋白的一个蛋白质结构域。蛋白质结构域(protein domain)是蛋白质中的一类结构单元,是构成蛋白质(三级)结构的基本单元。
4.ORF,CDS,起始密码子,终止密码子
CDS Sequence :蛋白质编码区 coding for amino acids in protein ,是编码一段蛋白产物的序列,是结构基因组学术语。它就是与蛋白序列一一对应的DNA序列,并且序列中间不存在其他与蛋白无关的序列,即:
CDS没有任何内含子,5‘UTR,3‘UTR
ORF 开放阅读框:Open Reading Frame。是从一个起始密码子开始到一个终止密码子结束的一段序列,它是理论上的蛋白编码区,一般是先在DNA序列中寻找起始密码子(AUG)对应的序列ATG,然后按每3个碱基一组(密码子以三个碱基为一单位)向后延伸,一直到出现终止密码子(UAG、UGA、UAA)对应的序列。
由于密码子读写起始位点的不同,mRNA序列可能按六种ORF阅读和翻译(每条链三种,对应三种不同的起始位点)。在6种潜在ORF中,一般选择中间没有被终止密码子隔开的最大的阅读框为正确结果。(可能不好懂,举个例子)
CDS与开放阅读框ORF的区别:CDS可以是开放阅读框(ORF)的子集。
负责翻译的DNA区域合起来就是ORF序列,而转录本逆转录就是cDNA序列
密码子(codon)是指 mRNA 分子中每相邻的三个核苷酸编成一组,在蛋白质合成时,代表某一种氨基酸的规律。
信使RNA在细胞中能决定蛋白质分子中的氨基酸种类和排列次序。mRNA分子中的四种核苷酸(碱基)的序列(AUCG)能决定蛋白质分子中的20种氨基酸的序列。而在信使RNA分子上的三个碱基能决定一个氨基酸。
密码子的简并性:分子生物学中,同一种氨基酸具有两个或更多个密码子的现象称为密码子的简并性(degeneracy)。对应于同一种氨基酸的不同密码子称为同义密码子(synonymous codon),只有色氨酸与甲硫氨酸仅有1个密码子。
起始密码子和终止密码子都是mRNA上的三联体碱基序列,分别决定翻译的起始和终止。
起始密码子 start codon:指定 mRNA 上开始合成蛋白质的密码子,也是第一个被核糖体翻译的mRNA上的密码子,位于编码区内,紧邻5′UTR。较为常见的起始密码子是AUG。
起始密码子 start codon 和起始子 Initiator 不是一个概念。真核生物中蛋白质编码基因的核心启动子元件有4类:传统的TATA盒、上游核心启动子元件BRE、下游启动子元件DPE和起始子(initiator,Inr)。Initiator元件指的是一段富含嘧啶的序列——PyPyA+1NT/ApyPy,转录起始位点位于其中的+1位。
终止密码子 stop codon:终止肽链合成的信使核糖核酸(mRNA)的三联体碱基序列,UAA、UAG和UGA,它们不编码氨基酸。
5.UTR
UTR Untranslated Regions 非翻译区,代表Exon的非蛋白质编码部分,是 mRNA 分子两端的非蛋白编码片段
5'-UTR从mRNA起点的 甲基化鸟嘌呤核苷酸帽 延伸至 AUG起始密码子
3'-UTR从编码区末端的 终止密码子 延伸至 多聚A尾巴(Poly-A)的前端
下图为DNA直接转录产物(hnRNA)不含非编码区含有内含子
6. 基因组学文件说明,从基因组注释文件整理出基因蛋白编码区、起始密码子上游几KB和内含子信息gff3文件
genome.fasta 即基因组每条染色体/scanffold/contig的DNA序列(ATCG)
final.gene.longest.gff3 基因组 gff 注释文件 一般基因的位置信息与mRNA位置信息相同,就只包括了5‘UTR到3‘UTR之间的区域(即只包括编码区不包括非编码区),注释文件中也可能会有一些基因 5‘UTR,3‘UTR区域鉴定不出来没有细写
final.gene.longest.gff3.transcript.fa 即最长转录本每条转录本对应的每个基因的核苷酸序列 (ATCG)
final.gene.longest.gff3.cds.fa 即最长转录本每条转录本对应的编码蛋白质的核苷酸序列(ATCG)
final.gene.longest.gff3.pep.fa 即最长转录本每条转录本的CDS序列翻译出来的蛋白序列(氨基酸序列)(CLESRKVFVG等)
用python从基因组注释文件(gff3格式)整理出基因蛋白编码区、起始密码子上游几KB和内含子信息的gff3文件(这里的起始密码子上游几KB寻找代码用要注意,作者注释文件中mRNA的起始位置和第一个CDS起始位置一致,即无5‘UTR信息)
7.非编码区,调控区,启动子,终止子,回文序列
非编码区(Non-coding region)是不能够转录为相应信使RNA,不能指导蛋白质合成(也就是不能编码蛋白质)的区段。非编码区位于编码区前后,同属于一个基因,控制基因的表达和强弱。真核生物非编码区位于编码区的上游和下游,故又称侧翼序列。
侧翼序列(非编码区)包括前导区(5‘UTR)、尾部区(3‘UTR)、调控区。侧翼序列(非编码区)虽然不能编码蛋白质,但一般非编码区具有调控基因表达的功能。
调控区又称调控序列。调控序列(Regulatory sequence)可以是DNA中的启动子、终止子、增强子、沉默子,以及一些调节蛋白(如转录因子)附着位点的核酸片段。这些序列调控了基因的表达,进而影响蛋白质的合成,调节转录的水平。
顺式作用(顺式调控):cis-acting,同一染色体上的DNA序列直接调控其他邻近基因的表达。即DNA对DNA,强调的是距离近,并且是DNA对DNA的调控。常见的顺式调控元件是启动子,增强子,沉默子,绝缘子等
反式作用(反式调控):trans-acting,DNA通过其产物(mRNA或蛋白质)间接调节基因的表达。用以描述基因元件的专有名词,如阻遏物基因与转录因子基因,它们可以影响位于不同染色体上的其他基因。这些反式作用基因通过产生能远距离作用的可扩散物质发挥功能。
顺式调控元件(cis-regulatory elements):CREs, 能影响基因表达,但不编码RNA和蛋白质的DNA序列。
按功能特性,真核基因顺式调控元件分为启动子、增强子、沉默子、绝缘子。
顺式调控元件可以为反式作用因子提供结合位点, 当反式作用因子结合到顺式调控元件的序列上, 转录调控将顺利进行, 转座元件可以插入顺式调控元件的序列之中破坏转录因子的结合位点来阻止它结合到对应 DNA 序列上, 造成基因的异常表达
反式作用因子:能识别和结合特定的顺式调控元件,并影响基因转录的一类蛋白质或RNA,如转录因子
启动子:promoter,指一段能使特定基因进行转录的DNA序列。与RNA聚合酶结合并形成转录起始复合体,并开始转录合成RNA。一般启动子位于5‘UTR上游(编码区上游),紧靠着转录起点,引导RNA聚合酶与基因的正确部位结合,其本身不被转录,长约100~1000碱基对(nt)。有一些启动子 (如tRNA启动子) 位于转录起始点的下游,这些DNA序列可以被转录。转录因子结合位点(TFBS)通常位于基因的启动子区域。
增强子:enhancer,与反式作用因子结合,增强转录活性,在基因任意位置都有效,相对于启动子的任何方向和位置上发挥作用,无方向性,远离转录起始位点,可位于转录起始点的上游或下游。从功能上讲,没有增强子存在,启动子通常不能表现活性;没有启动子时,增强子也无法发挥作用。根据南京大学陈迪俊老师的研究表明增强子比启动子能结合更多的转录因子(Nature Communications)
沉默子:silencer,降低基因启动子转录活性的一段顺式调控元件(序列),与增强子相反。基因表达负调控元件,与反式作用因子结合,抑制转录活性。
绝缘子:insulator 能够妨碍真核基因调节蛋白对远距离的基因施加影响的顺式调控元件。
这几个开放元件都对基因的转录调控起着至关重要的作用
如下图,可以看到不同的调控序列:
转录起始位点与启动子:
1.转录起始位点(transcription start site,TSS )是指一个基因的5'端转录的第一个碱基(是指 5'UTR 头的第一个碱基,不是尾),它是与新生RNA链第一个核苷酸相对应DNA链上的碱基,通常为一个嘌呤(A或G)。在一个典型的基因内部,排列顺序为转录起始位点(TSS,一个碱基)-起始密码子编码序列 (ATG)-终止密码子编码序列-转录终止位点 (TTS),即TSS-ATG-TGA-TTS
通常把转录起始位点前即 5'末端(5'UTR 头的末端,不是尾)的序列称为上游,而把其后即 3'末端(3'UTR 尾的末端) 的序列称为下游。
2.启动子(promoter):是指一段能使特定基因进行转录的DNA序列。启动子可以被RNA聚合酶辨认,并开始转录合成RNA。在RNA合成中,启动子可以和调控基因转录的转录因子产生相互作用,控制基因表达(转录)的起始时间和表达的程度,包含核心启动子区域和调控区域,就像“开关”,决定基因的活动,继而控制细胞开始生产哪一种蛋白质。其核心部分是非编码区上游的RNA聚合酶结合位点,指挥聚合酶的合成,这种酶指导RNA的复制合成。
一般启动子位于5‘UTR上游(编码区上游),紧靠着转录起点,引导RNA聚合酶与基因的正确部位结合,其本身不被转录,长约100~1000碱基对(nt)。有一些启动子 (如tRNA启动子) 位于转录起始点的下游,这些DNA序列可以被转录。
强启动子(strong promoter):对RNA聚合酶有很高亲和力的启动子,可以指导合成大量的mRNA。
真核生物体内具有三种保守的RNA聚合酶(Pol I,II,和III),它们可以将核基因组转录成各种编码和非编码转录本(植物还使用另外两种酶,Pol IV和Pol V来产生非编码转录本如lncRNA)。Pol I,II,和III 三类聚合酶能够识别不同的启动子,即启动子有三类。其中II类启动子由:传统的TATA盒、上游核心启动子元件BRE、下游启动子元件DPE 和 起始子(initiator,Inr) 四部分组成,转录起始位点位于起始子内。
3.启动子是一段序列,转录起始位点是一个碱基。不能相等同。RNA聚合酶II(pol II)所识别的启动子(II类启动子)包含转录起始位点,两者属包含与被包含的关系。
终止子 terminator :位于编码区下游,是转录过程中能够终止RNA聚合酶转录的DNA序列。紧靠着转录的终点位置,阻碍RNA聚合酶的移动,并使其从DNA模板链上脱离下来。终止子可分为两类:一类不依赖于蛋白质辅因子就能实现终止作用。另一类则依赖蛋白辅因子才能实现终止作用。
基因非编码区的碱基的插入、缺失和替代也属于基因突变事件,尽管大多数的研究是局限在编码区突变。
回文序列:是一段长约7-20个核苷酸对的反向重复顺序,也称为终止信号,是RNA聚合酶转录终止的信号,位于AATAAA的下游,其对称轴距转录终止点约16-24bp。因为回文序列的特殊排列,其大多都位于非编码区。
举例,DNA序列ACCTAGGT 是回文序列,因为它的互补序列是TGGATCCA,而反向互补序列是ACCTAGGT,和其原来序列一致
8.转录因子及结合位点,结构基因,调节基因,操纵基因
转录因子(transcription factor):一群能与基因5'端上游特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子,这些蛋白质能调控其基因的转录。调控方法是转录因子可以调控核糖核酸聚合酶(RNA聚合酶,或叫RNA合成酶)与DNA模板的结合。 更详细的转录因子介绍:https://cloud.tencent.com/developer/article/1376739
转录因子与RNA聚合酶Ⅱ形成转录起始复合体,共同参与转录起始的过程。
TF结合位点 transcription factor binding site,TFBS:转录因子调节基因表达时,与基因模板链结合的区域。一般应该分布在基因前端(但:人21和22号染色体上,只有22%的转录因子结合位点分布在蛋白编码基因的5'端)
三种基因是对基因的功能所作的区分,是以直线形式排列在染色体上:
结构基因:是决定合成某一种蛋白质或RNA分子结构相应的一段DNA。结构基因的功能是把携带的遗传信息转录给mRNA(信使核糖核酸),再以mRNA为模板合成具有特定氨基酸序列的蛋白质或RNA。
1)原核生物结构基因:连续的,RNA合成不需要剪接加工;
2)真核生物结构基因:由外显子(编码序列) 和内含子(非编码序列) 两部分组成。
非结构基因:结构基因两侧的一段不编码的DNA片段(即侧翼序列),参与基因表达调控。
调节基因:是调节蛋白质合成的基因 。它能使结构基因在需要某种酶时就合成某种酶,不需要时,则停止合成,它对不同染色体上的结构基因有调节作用。
操纵基因:位于结构基因的一端,是操纵结构基因的基因。当操纵基因“开动”时,处于同一染色体上的,由它所控制的结构基因就开始转录、翻译和合成蛋白质。当“关闭”时,结构基因就停止转录与翻译。操纵基因与一系列受它操纵的结构基因合起来就形成一个操纵子。
在正常情况下,在需要某种或其有关的酶时,在调节基因和操纵基因的控制下等候在启动子 (Promotor) 位置上的RNA聚合酶开始转录,从而产生了与这些酶有关的结构基因的信使RNA,并由后者合成所需的酶。若结构基因发生突变,便会产生失去活性的蛋白质,从而造成差错。
9.表观遗传
epigenetics:表观遗传学。表观遗传学修饰在不改变DNA序列的情况下控制着基因的表达,包括染色质重塑、组蛋白修饰、DNA甲基化和microRNA通路等。
ChIP-seq:检测目标蛋白质所结合的DNA序列。如可以知道某种组蛋白修饰在基因组上的分布信息,某个转录因子可以调控哪些基因https://www.bilibili.com/video/BV1dG411h74Q?spm_id_from=333.337.search-card.all.click&vd_source=c818105625602034942e80808994e94a
ATAC-seq:研究开放染色质区,开放染色质区通常包含的功能元件有启动子、增强子,沉默子、绝缘子等。调控蛋白(如转录因子)过来结合,可以影响细胞内基因复制以及调控基因的转录活性。开放染色质区没有核小体结合。
ATAC peaks: 峰。常用来表示染色质的开放程度,因为是测序的reads落在了染色质的开放区,堆叠后被可视化的一种丰度的体现。
THSs,ACRs: DNA内切酶可以对染色质进行切割,这些切割位点称为DNA超敏感位点。没有核小体结合的DNA区域容易被核酸酶切割,DNA超敏感位点就位于这个区域
(转座酶超敏感位点,transposase hypersensitive sites)。
这些位点的分布往往具有一定的规律性——切割后的DNA片段都在100-200bp左右。这些DNA片段就称为染色质开放区或者开放染色质(accessible chromatin regions,ACRs)。(开放染色质区没有核小体结合)
【NP | 2019】根据ACRs距离最近基因的距离将ACRs分为三种类型:genic (gACRs; overlapping a gene), proximal (pACRs; within 2 kb of a gene) or distal (dACRs; >2 kb from a gene),分别是跨越基因的,近端的,远端的染色质开放区。
组蛋白修饰
细胞核中的染色体是高度压缩的,而折叠时DNA就是缠绕在组蛋白上,形成核小体。组蛋白通常含有H2A,H2B,H3,H4,在组蛋白N端都有一段富含赖氨酸和精氨酸的“尾巴”,尾巴上的氨基酸可以被修饰酶催化添加各种修饰基团,如甲基、磷酸基、乙酰基和泛素等,这个过程就称为“组蛋白修饰”。组蛋白H3是修饰最多的组蛋白。
组蛋白甲基化:甲基化可发生在组蛋白的赖氨酸和精氨酸残基上,而且赖氨酸残基能够发生单、双、三甲基化,而精氨酸残基能够单、双甲基化,这些不同程度的甲基化极大地增加了组蛋白修饰和调节基因表达的复杂性
组蛋白乙酰化:四种类型的组蛋白相互作用,将细胞核里的DNA紧紧地包装起来。这样的紧密包装能够有效阻止酶读取DNA上的遗传信息。然而,乙酰基连到组蛋白上能削弱它们对DNA的占据。因此局部乙酰化能暴露出相应的基因,让它们更容易激活
H3K27ac是对核小体组蛋白H3的表观遗传修饰。它指示组蛋白H3蛋白N末端位置27处赖氨酸残基乙酰化的标记。H3K27ac与更高的转录激活相关,因此被定义为活性增强子标记。在转录起始位点的近端和远端区域都发现了H3K27ac。
H3K4me3是对DNA包装蛋白组蛋白H3的表观遗传修饰。该名称表示在组蛋白H3蛋白的赖氨酸4上添加了三个甲基。H3用于在真核细胞中包装DNA,对组蛋白的修饰会改变基因转录的可及性。H3K4me3通常与附近基因的转录激活有关,用来识别基因启动子。
H3K9me2,H3K9me3是对DNA包装蛋白组蛋白H3的表观遗传修饰。它表示组蛋白H3蛋白第9个赖氨酸残基发生二甲基化,三甲基化。H3K9me2,H3K9me3与转录抑制密切相关。与转录起始位点周围10kb区域中的活性基因相比,沉默时H3K9me2的水平更高。
Hi-C TAD CTCF
染色质构象捕获技术(Hi-C)的发展揭示了在间期细胞核中,基因组可以划分为以Mb为单位的拓扑关联域(TAD)。TADs可以限制增强子只在相同的TAD区域内激活启动子,因而被认为在限定CRE的功能方面有重要作用。然而TADs在基因调控方面的具体作用仍存在争议。TAD边界元件的删除可以导致邻近基因表达紊乱,在某些情况下甚至会产生表型后果。然而,有些重要的TAD-组织蛋白如CTCF的紊乱却对转录只有极小影响。
染色质结构蛋白CTCF是一种重要的转录抑制因子,通过多种机制调控基因表达。其最具特色的功能是通过同源二聚引起DNA成环,参与基因组拓扑结构域(TAD)边界形成,改变染色质空间结构。早期的研究表明很多哺乳动物基因组中大部分的CTCF的结合位点衍生自几个不同种TEs。例如,CTCF结合位点在人类中衍生于灵长类特异的内源性逆转录病毒,而在小鼠中主要来自B2短散在核元件(SINEs)。TEs能够为CTCF提供TFBS,因而产生了新的拓扑结构域边界,调节染色质三维结构。
10.正向遗传学 反向遗传学
简单地说,正向遗传学是从表型变化研究基因变化,反向遗传学则是从基因变化研究表型变化。
正向遗传学的研究是指开始于良好表征的表型,然后鉴定影响表型的基因。即通过生物个体或细胞的基因组的自发突变或人工诱变,寻找相关的表型或性状改变,然后从这些特定性状变化的个体或细胞中找到对应的突变基因,并揭示其功能。常用的方法如:T-DNA标签,转座子标签等,以某种方式改变目标基因的表达,从而揭示与通过插入外源基因而改变的特定表型的关系。数量性状基因座(QTL)图谱和关联定位等遗传作图方法也是
反向遗传的研究起始于一个基因,通过一定的手段确定基因决定的表型。即改变某个特定的基因或蛋白质,然后再去寻找有关的表型变化。反向遗传方法如RNA干扰(RNAi)、反义RNA的基因沉默等,单个基因的表达在某种程度上被破坏可能导致植物中可见的突变
声明:本篇多为资料整理总结,仅用于自学记录和交流,侵删,谢谢大佬们。参考:
素锦时年_1b00 https://www.jianshu.com/p/df37d5f56bca
米妮爱分享 https://www.jianshu.com/p/65e2c2ad19a6
刘小泽 https://www.jianshu.com/p/2ba85c5306e7
Han_zh https://www.jianshu.com/p/91241c82ba5e
LeoinUSA https://www.jianshu.com/p/a56ba94eaf36
刘小泽 https://www.jieandze1314.com/post/cnposts/169/
叩响生信之门 https://mp.weixin.qq.com/s/Fs0wogah7G9u-lCZeo4tdw
https://www.abcam.cn/epigenetics/chromatin-structure-and-function-a-guide-2
Sc_RNA_seq https://www.jianshu.com/p/a2c0d5b0dbc1