RNA-seq基础知识

单端测序和双端测序

单端测序只有一种测序引物，使得PCR只能沿着这个引物的方向进行，所有的 reads 都只能按照一个方向进行读取。但是测序的质量会随着测序的进行而下降，所以 reads 越往后面越不准确。一个解决办法就是双端测序，对一个长为 500 bp 的序列，单端测序下游质量会很差，但是从两个方向上分别测 250 bp-300 bp 然后再拼接起来，就可以大大提高测序的准确率了。双端测序的测序的接头序列要复杂一些，首先为了两个方向上分别进行测序，就需要有两个不同方向的测序引物（下图 Rd1 SP 和 Rd2 SP）；其次，为了区分两个方向的 reads，其中一个测序引物前面要添加一小段 index 序列进行标记。

双端测序中每一个单独的 Read 其长度都超过整个待测序列的一半，所以可以根据两个 Reads 重合的部分进行拼接

为何要有Paired-end这样的技术发明呢？

①假设一个DNA片段刚好跨越了重复序列区域（下图左侧）以及独特序列区域（下图右侧）。假如只读取Single-Read，我们只会获得红色实线的序列信息，也就是ATATATAT。接下来，当我们想要将这段read跟reference genome做比对的时候，便会出现问题：到底这段read是出自于红色实线的位置，还是红色虚线的位置？这个问题我们就可以使用Paired-end的技术来加以解决。由于Paired-end reads之间的距离为已知（在此我们设为34bp），我们便可以先定位绿色read的位置，在正确定位出左边红色reads之间AT的位置，而不至于将其误判在红色虚线的位置。如下图所示：

②因为单端测得太长错误率会提高，像一代测序也是，能够测几百bp的长度，但是越往后测序出来的条带杂峰会多，而且不清晰，二代测序也是一样的道理，单端测600bp会很不准确，双端300bp测序会准很多。

junction

可能序列比较长有四五百bp，两边各测120-150bp，junction就是双端测序中间没有测到的区域。

基因丰富和基因表达的丰度

基因丰度是指基因组中该基因的拷贝数量。基因丰度高，即这个基因的数量多，那么可能这个基因的表达量也会多，但是不一定，主要还是要看该基因的启动子强弱。所以基因丰度高不代表表达丰度也高。

基因表达丰度高是指该基因转录成mRNA多，那么表达的蛋白也多，对于表型的影响就大。

转录本

转录本是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA，一条基因通过内含子的不同剪接可构成不同的转录本。转录组是由许多转录本拼接而成。

RNA与DNA测序之间的差异

测序深度和测序覆盖度

对长100bp的目标区域进行测序：采用单端测序，每个read长5bp；总共得到了200个reads；把所有的reads比对到目标区域后，100bp的目标区域中有98bp的位置至少有1个read覆盖到，换言之，剩余的2bp没有1个read覆盖。

深度：200 x 5 / 100 = 10 我们说这此测序的深度为10X。

覆盖度：98 / 100 × 100% = 98% 我们说这次测序的覆盖度为98%

测序深度越高，基因覆盖度越高。一般人的测序深度到10x，基因覆盖度就100%了，测序深度就饱和了，测序深度再升高没有什么效果了。

插入片段大小

通过检测双端测序的起止位置，可以得到插入片段的长度，决定了测序的长度。

引物和接头

提取基因组DNA后，用超声波打断或酶切打断，然后跑胶得到300-500bp的小片段，因为打断是随机打断的，可能有粘性末端，所以用酶来形成平末端，再在平末端后面加上A碱基得到粘性末端，在加上adapter，加到flowcell上，进行几轮的PCR扩增，就得到了测序文库。接头包括了三部分，依次是与flowcell上结合的寡聚体，区分样品的index，测序需要的引物premer。

在测序时，首先是测序引物和序列结合，然后进行边合成边测序（连上一个碱基，测一次，然后进行化学反应，再连碱基，再测序，这样循环下去），测够长度后，将合成的序列去掉，然后加上另外一个premer来测index，这样每个reads都有一个index（用来识别样品来源），然后在进行一次桥式PCR扩增，去掉已经测过序的那条链，再进行一次测序。

有一点需要注意的是，当插入的序列（也就是超声波打断的小片段）如果比较短的话，或者文库插入的片段比测序读长还要短就可能测到premer和index，所以得到数据后，要进行去接头。

Index：每个样品由一个index修饰，得到的reads中也包含了index，根据index可以得知双端测序是否来自于同一个样品。

链特异性建库

正链/负链：对于一个基因来说，DNA的两条链中有一条链作为RNA合成时的模板，这条链叫负链（模板链/反义链），另一条叫正链（非模板链/正义链）。

反义链/正义链：在双链DNA中，用来转录mRNA的DNA链称为模板链，不用于转录的链则称为非模板链。根据碱基互补配对原则，转录出的mRNA链的碱基序列与非模板链的碱基序列一致，惟一不同的是，非模板链中的T在mRNA链中全部置换成了U，因此非模板链又被称为编码链或正义链。

链特异性：链特异性建库，可以确定转录本来自正链还是负链。以便更加准确的获得基因的结构以及基因表达信息。并且可以更好的发现新的基因。（研究表明：很多基因组区域具有正负链的转录本，反义转录是真核基因的一个特征，是一种重要的调控方式。对于原核以及低等真核生物的基因组，常常具有重叠基因。

为何illumina会限制合成的链的长度呢，不能像Sanger法一样，最长测1k？

原因就出在二代测序多出来的PCR过程：每一个位点都要测许多次，比如一段时间后的PCR得到的每个cluster都各包含200条完全相同的序列，那就需要对这200条序列的同一个位点进行测序。

第一轮我们来测第一个位点（假设位点1是A）正常来讲，200条序列都应该加A碱基，但是不巧只有199个在位点1都加了碱基A，有一条序列没有加上，所以就出现了199个红色1个灰色【当然目前还构不成影响】；

第二轮（假设位点2是G）大家应该都加G测得绿色，但是之前的那个没有加上A的，他要对之前的失误进行补偿，因此别的序列加G的时候，它加上了本该上次就加的A，它得到了红色，这个红色在一大群的绿色中就是作为杂信号存在的。依次向下，测序长度越长，杂信号越多，最后可能标准信号和杂信号各一半，这样系统无法判断，只能给N，而N多了对于后续的分析处理很麻烦，去了吧丢失数据，不去吧又是冗余。

基因注释

①RefSeq Gene注释; 来自于NCBI，对gene的不同转录本进行注释，1个转录本对应1个编号成为RefSeq id，例如对于可以翻译成蛋白的转录本，都会以NM_开头如NM_015658；对于不能翻译的转录本，都会以NR_开头如NR_027055；不同注释的情况如下图(ps:注释的数据库来源不一样，编号不一样)

②Ensembl注释；对gene的不同转录本进行注释，以ENSG开头的表示Ensembl gene_id如ENSG00000227232，以ENST开头的表示Ensembl transcript id如ENST00000438504。

③UCSC gene注释；对gene的不同转录本进行注释，一般是类似uc004cpf这样的名称。

反向互补序列的意义

生物的DNA序列有两条链，虽然在查看基因组序列的时候网站一般先提供正向链，但是不同基因在基因组序列中的转录起始方向是不同的，有的基因是正着待着的，有的就是反着待着的。当你需要查看转录方向与正向链相反的基因序列时，你要找到该基因的启动子（ATG）就需要查看正向链的反向互补序列。

还有从基因组上扩增序列时需要针对两条链同时设计引物，此时也需要正向序列及反向互补序列

还有很多很多的基因调控都是针对两条链同时发挥作用的，反向互补序列就是根据一条链的信息推算出另一条链的信息。

基因座

一个基因座可以是一个基因，一个基因的一部分，或具有某种调控作用的DNA序列。基因座是染色体上的固定部位，在相同基因座上编码相同的DNA被称为等位基因。同一基因座上有相同的等位基因就是纯合子，相同基因座上是不同的等位基因就是杂合子。

gene isoforms

亚型/异构体，可以理解为一个基因的不同形态，就是由同一个基因座产生的mRNA，在转录起始位点（TSS），编码蛋白序列，非翻译区这些地方有差别，间接地改变了基因的功能。

图中1、2、3是mRNA的三个外显子，由于连接方式不同，产生了三种isoforms。

gene isoforms

可变剪切

大多数真核基因转录产生的mRNA 前体一般按一种方式剪接产生出一种mRNA，结果只产生一种蛋白质。但有些基因产生的mRNA 前体可按不同的方式剪接，产生多于两种的mRNA。

编码蛋白的成熟mRNA是mRNA前体经过剪切过的，外显子可以不按其线性次序剪接，内含子也可以不被切除而保留。因此成熟的mRNA中每一个外显子、内含子的存在与否都是不一定的。

有5种类型：外显子跳跃、内含子保留、3、5‘端可变剪切、3‘端可变剪切、特定外显子可变剪切（比如第一个或者最后一个外显子）。

正常翻译

外显子跳跃

3'可变剪切

5'可变剪切

分析的阻碍

（1）测量标准：为了比较谁多谁少，一般都是采用相对定量的分析方法。但是同样的绝对数量对于不同的基数来讲，得到的相对值也是不同的。比如，第一次测A、B基因表达量是10，那么这一次中A基因的丰度就是10/（10+10）=50%；第二次测A、B、C表达量都是10，那么这一次，A的丰度就成了33.3%，但是能说第二次比第一次A基因的表达量丰度下降了吗？因此，只看表面的数字可能不能反映实际问题。

（2）测量方法：目前转录组测序采用的二代测序，还是测一段DNA的一小部分。由于可变剪切一般将内含子去除，而拼接不同的外显子，但毕竟它们“师出同门”，因此得到的转录本也是相似的，就像图中1、2组成的转录本a和1、3组成的转录本b都含有3，因此要将一小段比对到原始转录本就比较难（比如，一条reads符合3的一小部分，那么这条reads是属于转录本a还是转录本b呢？）

（3）测量对象：mRNA不像DNA一样稳定，它很容易降解，因此它的丰度是时刻改变的。因此测转录组之前需要这个时间节点确保观察到了变化，并且这个变化与实验条件有关系。一般为了证明这一点，需要测定一个状态下的样本好几次，也就是所做的重复。差异基因的确定也必须通过重复来验证，也就是一个条件下几个重复得到的值如果都与标准条件下几个重复的值有差别，这才认为这个差异基因有效。推荐最少设置三个重复，五个更好。

剪切感知比对

有许多测序reads是来自两个外显子的连接处（也就是剪切位点），如果要比对会参考基因组，reads的中间肯定会被加入一段空白（也就是原来的内含子）。相当于原来reads是脚踏两条船，现在两条船要回家，reads的腿就开始劈叉了。因此，对比软件必须要考虑到这一点，容许reads比对回去后，中间含有大大的空隙。

批次效应

在不同芯片、不同测序仪、不同测序通道或在不同时间点收集的mRNA进行测序，即便是相同的mRNA也会导致测序得到的基因表达量有较大的不同，这就是批次效应。

Short-read短读长：测序得到的长度最大是500 bp的reads，常见的测序片段长度为100-300 bp。

Long-read长读长：测序得到的超过1000 bp的reads，代表全长或近乎全长的mRNA。

Direct RNA sequencing(dRNA-seq): 直接测序RNA而非cDNA的测序技术，通常用于测序全长或近全长的mRNA 。

Multi-mapped reads多重比对的reads：从转录组同源区域测序得到的reads，不能精确确认其转录本或基因组的来源。

Synthetic long reads合成long reads：通过组装多个短读长得到长读长的方法。

唯一分子标识符（UMIs）：在扩增前，构建RNA-seq文库的时候加入的短序列或barcodes，理想情况下每条转录本结合一个唯一的标识符，含有此标识符的reads都来源于此转录本，定量时只计算一次。可以用来降低RNA-seq的定量偏好性，在RNA起始量低的单细胞实验中尤为适用。

Read length读长：单个测序reads的长度，short-read RNA测序得到的长度通常是50-150 bp。

Sensitivity敏感性：样本中多大比例的转录本会被测到，敏感性越高，这一比例越高。它受样本处理、文库制备、测序和计算偏好性的影响。

Specificity特异性：度量差异表达转录本被正确鉴定出的比例的方法，它受样本处理，文库制备，测序和计算偏好性的影响。

Duplication rates重复Reads比率：比对到转录组相同位置的的测序reads的比例。在RNA-seq文库中，一些转录本可能有高的重复率，因为它们在样本中表达水平高。高表达的基因的重复率很高，而低表达基因的或许有着最小的重复率。由此RNA-seq面临着一个挑战，该技术中大部分重复可能是高表达转录本带来的真实信号，而另一些则是由于扩增和测序偏好性造成的。

生物学重复：对生物来源不同的样本的多次检测，比如来自三个个体的组织，用于捕获生物个体自身的变化；这个变化要么是待研究的对象，要么是噪音。相较之下，技术重复是对同样的样本做重复的操作—比如，对一个组织做三次处理。

Spike-in control内参：按特定浓度添加到样品中的外源核酸库。它们通常是预先合成的不同浓度的RNA，用于监测反应效率和技术方法的偏差和假阴性结果。

Translatome翻译组：细胞、组织或生物体中正在翻译成蛋白质的mRNA集合。

Structurome结构组：细胞、组织或生物体中RNA的二级和三级结构集合。

Interactome互作组：细胞、组织和生物体中分子相互作用的集合，包括有RNA-RNA或者RNA-蛋白质的相互作用。