Backgroud
APA(alternative polyadenylation)在大多数人类基因的转录后调控中发挥着重要作用。通过使用不同的多聚腺苷酸化(poly(A))位点,基因可以缩短或延长含有顺式调控元件的3 'UTR,如microrna (miRNA)或RNA结合蛋白(RBP)结合位点3 ' UTR。因此,APA可以影响靶信使RNA的稳定性和翻译效率以及蛋白的细胞定位。poly(A)位点的多样性可以极大地影响正常发育和疾病(如癌症)的进展。
软件
DaPars软件目前有两个版本,做了一下对比,发现DaPars2相对更灵敏,可以发现更多的基因。我也是生信小白刚入门,折腾了两天的软件,给大家避避坑。两个版本都需要python2.7的环境!!!!这个非常重要,不然python脚本会出现各种语法错误。
https://github.com/ZhengXia/dapars
https://github.com/3UTR/DaPars2
DaPars
两个版本第一步都是一样的,从参考基因组里面找到远端APA位点,然后利用一个回归模型推测近端位点。这里有一个坑!我的是小鼠的,不能使用最新版本mm39,会疯狂报错,所以我后面重新用mm10做了mapping,就顺利跑出来了。
step1
python DaPars_Extract_Anno.py -b mm10_refseq_whole_gene.bed -s mm10_Refseq_id_from_UCSC.txt -o mm10_refseq_extracted_3UTR.bed
##这一步有两个文件需要从UCSC获得:
*mm10_refseq_whole_gene.bed
genome: mouse
assembly:mm10
group: Genes and Gene Predictions
track: NCBI_REfSeq
table: refGene All
region: genome
output format: BED - browser extensible data
output file: mm10_refseq_whole_gene.bed
点‘get output’ button,下一页点‘Output refGene as BED’ 再点 ‘get output’ button.
*mm10_Refseq_id_from_UCSC.txt
genome: mouse
assembly: mm10
group: Genes and Gene Predictions
track: NCBI REfSeq
table: refGene All
region: genome
output format: selected fields from primary and related tables
output file: mm10_Refseq_id_from_UCSC.txt
点 ‘get output’ button,下一个界面选择:
name: Name of gene (usually transcript_id from GTF)
name2: Alternate name (e.g. gene_id from GTF)
点 ‘get output’ 保存文件
step2
python DaPars_main.py configure_file
##在做这一步之前需要先将mapping完的bam文件用Bamcoverage转换成bw文件(建议在这步做一下normalization),再用bigWigToWig转换成Wig格式。
##configure_file需要自己编辑,格式如下,只需修改我加粗的部分:
Annotated_3UTR=mm10_refseq_extracted_3UTR.bed
Group1_Tophat_aligned_Wig=Condition_A_chrX.wig
Group2_Tophat_aligned_Wig=Condition_B_chrX.wig
#这篇文章作者是分析了肿瘤和正常组织两个条件,所以需要分成两个group,这里根据自己的样品随便分就行,我试过不同组合,结果是一样的。如果有多个样品用逗号隔开即可
Output_directory=DaPars_Test_data/
Output_result_file=DaPars_Test_data
#这里可改可不改,就是输出文件夹的名字
Num_least_in_group1=1
Num_least_in_group2=1
Coverage_cutoff=30
FDR_cutoff=0.05
PDUI_cutoff=0.5
Fold_change_cutoff=0.59
Result
到这里就结束啦,最后输出的结果会有一个PDUI值,这个值在[0,1],越接近1其3’UTR越长。最近有点忙,先分析第一个版本,后面有空再分享第二版。
参考文献
Xia, Z., Donehower, L.A., Wheeler, D.A., Cooper, T.A., Neilson, J.R., Wagner E.J., Li, W. 2014. Dynamic Analyses of Alternative Polyadenylation from RNA-Seq Reveal 3'-UTR Landscape Across 7 Tumor Types. Nature Communications, 5:5274.