1.背景知识
1.1什么是可变剪切
可变剪切(differential splicing)也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式使得同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质,在不同组织或者发育的不同阶段,可变剪切不是一成不变的,在特定的组织或者条件下,会产生特定的剪切异构体isofrom, 这说明不同异构体具有特定的时间与空间作用,从而将可变剪切与正常的生命活动和疾病相关联,有大量的研究发现,可变剪切的变化与癌症等多种疾病相关,所以研究可变剪切在不同组织中的研究是非常有意义的[1]。
1.2 可变剪切类型
在生物体内,主要存在7种可变剪接类型[2]:
- ES(Exon skip)指一个外显子从初始转录物上被剪切掉。基因发生可变剪接形成两种不同的转录本, 第1种转录本比第2种转录组本多一个外显子,我们将这种外显子称为inclusive exon,inclusive exon两侧的两个外显子称为constitutive exon。
- RI(Retained intron):基因发生可变剪接形成两种不同的转录本, 第2种转录本由retained Intron与两侧的外显子一起形成新的外显子。
- AD(Alternate Donor site):基因发生可变剪接形成两种不同的转录本,它们的3'端剪接位点一致但5'端剪接位点不同, 第二种转录本的5'端外显子有所延长。
- AA(Alternate acceptor site):基因发生可变剪接形成两种不同的转录本,它们的5'端剪接位点一致但3'端剪接位点不同, 第二种转录本的3'端外显子有所延长。
- AP(Alternate promoter):基因的两个转录本的区别在于第一个外显子不同,这样的可变剪接事件称为Alternative First Exon。
- AT(Alternate terminator):基因的两个转录本的不同之处于最后一个外显子不同,这样的可变剪接事件称为Alternative last exon。
-
ME(Mutually exclusive exons):基因发生可变剪接形成两种不同的转录本,两转录本之间相同的外显子称为constitutive exon, 不同的外显子称为inclusive exon,两个inclusive exon不能同时存在与同一转录本中, 只能分别存在于不同转录本中。 这样的可变剪接事件称为Mutually Exclusive Exon。
2.分析策略
Hisat2+StringTie+Astalavista
Hisat2用于将转录组测序数据比对到参考基因组(Camellia sinensis),使用samtools将sam文件转换成bam文件并构建索引,Stringtie将利用上一步samtools生成的bam文件获得gtf文件,最后Astalavista可从gtf文件中检测可能存在的可变剪切事件。
3.软件的安装与使用
3.1 Hisat2的安装与使用
3.1.1 Hisat2安装
直接使用miniconda进行安装,解决所有依赖软件。
conda create -n hisat2
conda activate hisat2
conda install -c bioconda hisat2=2.1.1.0
#创建环境并安装指定版本的的hisat2
下载安装包自行安装,Hisat2安装包下载地址:Download | HISAT2 (daehwankimlab.github.io)
,下载指定版本的安装包。
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip
export PATH=path/to/your/hisat2-2.1.0:$PATH
source ~/.bashrc
3.1.2 Hisat2构建参考基因组
在正式比对前还需要构建参考基因组,所使用的软件是hisat2,基本命令为hisat2 -build,基础命令为:
hisat2-build /path/to/the/genome.fasta /path/to/your/output/genome 1>hisat2-build.log 2>&1
以上各代码各部分分别为:
/path/to/the/genome.fasta:参考基因组所处位置;
/path/to/your/output/genome:输出文件所存储位置及所使用的前缀;
1>hisat2-build.log 2>&1:将标准输出流与错误输出流同时输入到hisat2_build.log这个文件中。
3.2 samtools的安装与使用
3.2.1 samtools安装
通过miniconda安装,一步到位。
conda create -n samtools
conda activate samtools
conda install -c bioconda samtools=1.18
#创建samtools的安装环境并安装指定版本的samtools
3.2.2 使用samtools转换格式与构建索引
samtools sort -o output.bam input.sam
#将sam文件转换为bam文件,输入为sam文件,输出为bam文件
samtools index input.bam
#samtools对bam文件进行索引构建
3.3 Stringtie的安装与使用
conda create -n stringtie
conda activate stringtie
conda install -c bioconda stringtie=2.2.1
#创建环境并安装指定版本的stringtie
stringtie基本使用方法
stringtie input.bam -p 16 -v -o stringtie.gtf -A abundance.txt
input.bam:是输入的 BAM 文件路径,即待进行转录组装的 BAM 文件.
-p 16: 这个选项指定了并行处理的线程数.
-v: 这个选项用于开启详细的输出信息(verbose mode),显示更多关于程序运行的详细信息。**
-o stringtie.gtf: 这个选项指定输出的 GTF 文件的名称和路径。
-A abundance.txt: 这个选项指定输出一个文本文件,其中包含每个基因的表达量信息。
3.4 Astalavista的安装与使用
conda create -n asvista
conda activate asvista
conda install -c bioconda astalavista=4.4
#创建环境并安装对应版本的astalavista
Astalavista基本使用命令:
astalavista -t asta --threads 24 -i input.gtf -o output_gtf.gz
将output_gtf.gz解压后就会得到可变剪切的信息文件,Astalavista软件产生的结果是用各种符号组合来表示的,不同符号类型表示不同的可变剪切类型:对于简单AS事件,AStalavista软件定义AS编码0,1–2ˆ( '为外显子跳跃( ES ),1ˆ,2ˆ为替代供体( A5SS ),1-,2-为替代受体( A3SS ),'0, 1ˆ2-为内含子保留( IR ),'1–2ˆ, 3–4ˆ为相互外显子跳跃( MXE*)。
参考文献
[1]可变剪切分析(一)详细教程 - 知乎 (zhihu.com)
[2]7种可变剪接类型(TCGA可变剪切)-生信自学网 (biowolf.cn)