真核生物大部分基因含有内含子,转录完成后产生的mRNA前体需要经过一系列复杂的加工,成为成熟的mRNA,转移到细胞质中才能发挥功能。可变剪接(Alternative Splicing,AS)是指从一个mRNA前体中通过不同的剪接方式,对外显子和内含子进行组合,产生不同的mRNA剪接异构体的过程。可变剪接受到具有特殊结构域的顺式调控元件(RNA motif)和识别这些motif的RNA结合蛋白(RNA binding protein)调控 。RNA-seq通常是二代转录组,可以通过高深度的测序数据组装构建转录本序列,预测外显子与内含子的结构并识别出可变剪接模式,假阳性不小。相比之下,三代全长转录组利用其读长更长的优势,可以直接读取转录本的全长序列,无需打断、组装,直接获得全长转录本的结构信息,能够更加准确的分析生物体内存在可变剪接事件。选择哪种测序方式需要考虑实际情况综合考虑。
rMATS
rMATS是一款对RNA-Seq数据进行差异可变剪切分析的软件。其通过rMATS统计模型对不同样本(有生物学重复的)进行可变剪切事件的表达定量,然后以likelihood-ratio test计算P value来表示两组样品在IncLevel(Inclusion Level)水平上的差异(从公式上来看,IncLevel跟PSI的定义也是类似的),lncLevel并利用Benjamini Hochberg算法对p value进行校正得FDR值。
安装
conda activate py2
conda install rmats
conda install rmats2sashimiplot
运行
mkdir -p $output/4.4.4_rmats
echo $output/4.3.1_Tophat2/A_rep1.uniq.sorted.bam,$output/4.3.1_Tophat2/A_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/A_rep3.uniq.sorted.bam>$output/4.4.4_rmats/A.txt
echo $output/4.4.1_Tophat2/B_rep1.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep3.uniq.sorted.bam>$output/4.4.4_rmats/B.txt
mkdir -p $output/4.4.4_rmats/A_vs_B
rmats.py --b1 $output/4.4.4_rmats/A.txt --b2 $output/4.4.4_rmats/B.txt --gtf $dir_geo/4_Bowtie2/XXX.genome.gtf --od $output/4.4.4_rmats/A_vs_B -t paired --readLength 125 --cstat 0.0001 --nthread 6 --tmp $output/4.4.4_rmats/A_vs_B
mkdir -p $output/4.4.5_rmats2sashimiplot/
mkdir -p $output/4.4.5_rmats2sashimiplot/A_vs_B
rmats2sashimiplot --b1 $output/4.4.1_Tophat2/A.uniq.sorted.bam,$output/4.4.1_Tophat2/A_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/A_rep3.uniq.sorted.bam --b2 $output/4.4.1_Tophat2/B_rep1.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep3.uniq.sorted.bam -t SE -e $output/4.4.4_rmats/A_vs_B/SE.MATS.JC.txt --l1 A --l2 B --exon_s 1 --intron_s 1 -o $output/4.4.5_rmats2sashimiplot/A_vs_B
结果
MATS的结果文件是以各个可变剪切事件的分布的,主要由AS_Event.MATS.JC.txt,AS_Event.MATS.JCEC.txt,fromGTF.AS_Event.txt,JC.raw.input.AS_Event.txt,JCEC.raw.input.AS_Event.txt这几类;其中JC和JCEC的区别在于前者考虑跨越剪切位点的reads,而后者不仅考虑前者的reads还考虑到比对到没有跨越剪切位点的reads,但一般仅使用最重要的.Event.MATS.JC.txt的结果(如果只是单纯的比较两组样品间可变剪切的差异的话;最后采用rmats2sashimiplot对结果绘图。
ASprofile
ASprfile软件对由StringTie对Hisat2的比对结果进行拼接的结果文件获取每个样本存在的可变剪接类型及相应表达量。
安装
wget https://ccb.jhu.edu/software/ASprofile/ASprofile.tar.gz
tar -zxvf ASprofile.tar.gz
cd ASprofile.*