featuresCounts
软件用于定量,不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量。
featureCounts 需要两个输入文件:
1)reads的比对情况,这种信息通常都用BAM/ SAM文件来存储
2)区间注释文件,支持两种格式
安装
conda install subread
运行
featureCounts -p -a 00ref/Araport11_GFF3_genes_transposons.201606.gtf \ #注释文件
-o our_counts.txt \ #输出文件
-T 6 -t exon \
-g gene_id sample*_Aligned.sortedByCoord.out.bam #对这部分文件进行定量
运行结果:产生两个文件out counts . txt和out_ counts.txt.summary
查看out counts . txt文件,里面包含有geneid,染色体位置,基因起始结束的位置以及基因的count数
表达定量结果转换为表达矩阵
#构建矩阵
rsem-generate-data-matrix *.genes.results > output. matrix
#删除未检测到表达的基因(剔除表达量为0的基因)
awk 'BEGIN{printf"geneid\ta1\ta2\tb1\tb2\n"}{if($2+$3+$4+$5>0)print $0}'
out.matrix > deseq2_input.tx
结果:查看文件的行数,删除未检测到表达基因的行数
###查看文件的行数
wc -l output.matrix
wc -l deseq2_input.txt