最近一直在做基因组区间上的突变分析,在研究CDS/UTR长度时发现了一些有意思但也颇为困惑的事情。
以CDS
为例,我先是用Ensembl v75
的gtf
注释文件抓取CDS
信息,然后观察它们的区间长度:
> summary(CDS$end - CDS$start)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 79.0 116.0 152.3 164.0 21692.0
可以看到差值最小的是0,也就是start
位点和stop
位点是同一个位置,也就是有的CDS
才1bp长。
看看有多少个:
> nrow(CDS[CDS$end - CDS$start == 0, ])
[1] 355
刚发现这个问题的时候还怎么注意,以为是0bp长(咳咳--),怎么编码蛋白??在https://www.biostars.org/p/261324/#261348 还提了问题,才知道有microexon这个东东。百度一个介绍http://www.life.umd.edu/labs/mount/RNAinfo/microexons.html,microexon就是那种特别短的外显子。那么到底它有啥用,参加蛋白编码吗?who can tell me?
我看一些文献用GENCODE
数据库的注释文件,所以也下载下来看看它CDS区域的情况,发现类似:
zcat gencode.v19.annotation.gtf.gz | awk '{OFS="\t";}{if ($3=="CDS") {print $1,$2,$3,$4,$5}}' | gzip > hg19_CDS_from_gencode.gz
wsx@wsx-ubuntu:~/下载$ zcat hg19_CDS_from_gencode.gz | awk '{OFS="\t";}{if(($5 - $4)==0)print $0}'
chr1 HAVANA CDS 1636464 1636464
chr1 HAVANA CDS 1636464 1636464
chr1 HAVANA CDS 6522723 6522723
chr1 HAVANA CDS 6522723 6522723
chr1 HAVANA CDS 6523132 6523132
(只截取了一部分)
UTR区间的长度结果类似。看来我还是太年轻啊~