一些基础中的基础(小学生内容),随手记录一下
基于转录本上的概念
外显子和内含子:
基因 DNA 分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。编码区则转录为 mRNA 并最终翻译成蛋白质。
外显子和内含子都被转录到 mRNA 前体 hnRNA 中,当 hnRNA 进行剪接变为成熟的 mRNA 时,内含子被切除,而外显子保留。实际上真正编码蛋白质的是外显子,而内含子则无编码功能。
内含子存在于DNA 中,在转录的过程中,DNA 上的内含子也会被转录到前体 RNA 中,但前体 RNA 上的内含子会在 RNA 离开细胞核进行翻译前被切除。
promoter不属于intron和exon的任何一个,属于noncoding sequence.
开放读码框ORF
开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。内含子和外显子指的就是一个开放阅读框(ORF)内编码的部分和不编码的部分。
基于翻译上的概念
mRNA 包括 UTR 和 CDS
UTR:UTR,Untranslated Regions一班指的是一个转录本(transcript)3'和5'不参与编码的区域即非翻译区,是信使RNA(mRNA)分子两端的非编码片段。UTR区不参与编码,但是不是说他们没有功能,只是不被翻译成具有功能的蛋白质。多数基因都有UTR,它们也是外显子拼接的产物。UTR在DNA序列中是算外显子的区域。
CDS:CDS,Sequencecodingfor aminoacids in protein 蛋白质编码区 ,CDS 是 Coding sequence的缩写,是编码一段蛋白产物的序列,CDS 必定是一个 ORF 。但也可能包括很多 ORF 。反之,每个 ORF 不一定都是 CDS 。
外显子与 CDS 区不是完全一致的,CDS 区一定属于外显子,但是外显子不一定是 CDS 区,也就是说外显子不一定都能翻译成蛋白。
把转录组测序表达量矩阵拆分成为编码与非编码 (qq.com)