当进行转录组学数据分析时,会发现有两种数据。一种被称为芯片数据(Microarray data),另一种是下一代测序技术(NGS)得到的数据(eg,二代测序,三代测序)。
目录
1. Microarray: 芯片数据
2. NGS (Next Generation Sequencing)
3. RNA-Seq的应用
1. Microarray: 芯片数据
原理:基于分子杂交技术,主要是依靠印刷有荧光标记探针的基因芯片来实现。比如说基因组芯片,它高密度的集成了分辨率高达几bp~100bp的探针,通过与样品杂交荧光显色的办法来刻画转录组的信息。
- 流程:1.标记mRNA或cDNA文库,2.与设计好的探针相杂交,3.洗脱,与探针有特异性结合的cDNA就保留了下来,4成像系统拍照捕捉信息;
- 原始数据:由仪器对杂交结果照像生成的图片,保存格式为CEL格式;
- 参考数据:基因芯片探针排布的信息,保存为CDF格式;
- 优点:高度集成,易于应用,成本低
- 缺点:
1. 高度地依赖已知信息;
2. 高背景噪音,非特异杂交会带来的无法分辨弱信号和信号过饱和的问题;
3. 在不同样品的比较当中,甚至在同一芯片内部,都存在杂交不均匀带来的各种问题,需要标准化等统计学方法来对结果校正;
4. 不能对可变剪接进行分析
2. NGS (Next Generation Sequencing)
直接对cDNA进行测序。下一代测序(Next Generation Sequencing,NGS)又名高通量测序(High-Throughput Sequencing),是相对于传统的桑格测序(Sanger Sequencing)而言的。
- 有参考基因组的测序流程:
- 从样品分离出mRNA;
- 反转录成cDNA, 片段化建库;
- 对文库进行测序;
- mapping到参考基因组上;
- 无参考基因组测序:要对测序结果进行拼接
- 高通量测序的主要平台代表有
- 罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer)
- Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)
- ABI的SOLiD测序仪(ABI SOLiD sequencer)
- 优点:
1. 不仅得到表达量,还可以对可变剪接和SNP进行研究;
2. 背景噪音小,无信号过饱和问题;
3. 数read的数目,所以精确度比基因芯片要高,且可重复性好;
4. 无克隆步骤,所以对样品量的要求更低; - 缺点:
1. 测序片段长度相对较小,对于较长的序列需要打碎成小片段建库;
2. 高通量数据需要生信工具进行挖掘;
3. 测序深度与花费的矛盾
3. RNA-Seq的应用
RNA-Seq即对转录组进行测序和分析。一般来说在研究所会委托公司测序得到数据自己进行后续的生信分析(质控,mapping,差异基因表达分析,SNV分析等)。RNA-Seq有着巨大的应用前景。
研究意义 作者:hoptop
- 在不同背景下比较mRNA水平
同一物种,不同组织:研究基因在不同部分的表达情况
同一物种,同一组织:研究基因在不同处理下,不同条件下的表达变化
同一组织,不同物种:研究基因的进化关系
时间序列实验: 基因在不同时期的表达情况与发育的关系- 基因分类: 找到细胞特异,疾病相关,处理相关的基因表达模式,用于诊断疾病和预测等
- 基因网络和通路: 基因在细胞活动中的功能,基因间的相互作用。
以下例子选自什么是RNA-Seq (RNA Sequencing)
- 例1. 识别基因或者外显子的边界,一次RNA-Seq就可以明确大量的基因和外显子边界;
- 例2. 扩展对转录复杂性的认识。对于人类而言,RNA剪接事件已经被确认的就有31618,还有更多有待我们去解,尤其是各类疾病成因的研究;比如它对低频度转录事件的发现,是研究生物噪音的一大利器。
- 因为RNA-Seq是可以定量的,所以可以应用于系统生物学方面并起到重要作用。
参考资料