关于tssRegion参数:
理解:
1、
TSS是: 转录时,mRNA链第一个核苷酸相对应DNA链上的碱基
它的上游是promoter
它的下游就是相应的基因
2、做注释的时候,需要找到离TSS最近的基因,离结合位点最近的基因更有可能被调控
所以annotatePeak就是可以查看peak上下游某个范围内(比如说-3k到3k的距离)都有什么基因。
只要peaks和TSS上下游的定义的区域,比如说-3k到3k的距离,有交集,那么这个peaks就可以被定义为promoter。
3、chipseeker的使用报告里面是写着,默认的tssRegion是+-3000的范围。
4、但是我在网上找到的很多流程,对于tssRegion的范围,
tssRegion = c(-2500, 2500)
有的是1000
有的是3000
也是有2000的?
不过也没说,为什么要取这个范围值???
5、我的上一次流程里面,x用的是1000。
是想看到,TSS附近1000以内的基因。
6、chipseeker的使用报告:seq2gene函数,用于将基因组区域与基因进行多对多映射。它考虑了宿主基因(外显子/内含子),启动子区域和基因间区域的侧翼基因,这些基因可能受顺式调控。此功能旨在将编码和非编码基因组区域链接到编码基因,并促进功能分析。
flankDistance = 3000,是想看左右3000的距离上有什么基因?
gene <- seq2gene(peak, tssRegion = c(-1000, 1000), flankDistance = 3000, TxDb=txdb)
7、总的来说,网上找了这么些资料,感觉还是不太理解这些范围的调节选择?
①、annotatePeak的时候,tssRegion究竟取多少才好?一般是用默认的3000。
如果调大一点,调到5000,找到的基因多一点吗?
如果调小一点,调到1000,是基因少一点,准确性高一点?
②、后面在做KEGG的时候,tssRegion ,选择,和前面annotatePeak,不需要一致。
但是选择多少比较合适?