这两天在总结标题中三种组学方法的分析流程,看到了ENCODE在去年公开的分析流程,感觉像捡到了宝贝一样。一个分析流程是针对ChIP-Seq的,包括转录因子和组蛋白修饰,链接在这里。另一个分析流程是针对ATAC-Seq或者DNAse-Seq的,链接在这里。
之所以说是宝贝,是因为这两个pipeline都提供了一体化的质量控制以及分析流程。开发实验室是我现在所在系的Anshul Kundaje。这两个pipeline也都是我现在老板做的ENCODE的产物。所做的,就是提供原始的fastq,或者中间的bam/sam文件,就可以得到整个分析结果,包括质量控制,以及mapping,peak calling等。
一般拿到一个ChIP-Seq或者ATAC-Seq的数据,首先需要做的就是分析这个数据的质量如何。下面我总结了在质量控制这一步需要做哪些分析,或者说做什么样的分析可以帮助自己确定这个数据的质量如何。
- fastqc
fastqc提供了原始测序得到数据的质量分析控制。有基本的比如每一个base pair的测序质量如何。
也有进阶的比如分析library complexity。具体的文档可以看这里:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
关于library complexity,得多说两句,一般好的ChIP-Seq或者ATAC-Seq样本的library complexity值都会高(大于0.5)。如果值太低的话,说明PCR amplification bias就会大,那么整个后续的peak calling结果就会不好,比如说会得到很少的peaks。更加详细的资料,可以参考这里。
- mappability
这个很直观,就是看用软件回帖后(推荐bowtie2),有多少百分比的reads能够回帖到基因组上,这个数值一般是大于60%。如果值太小说明样本中的测序数据很多都不属于所研究的基因组,而后续分析的reads也就只占测序得到reads的比较小的一部分。当然也有可能测序机器出问题了,但是这种概率一般较小,我目前还没有遇到过。
另外一个值得注意的是,如果所分析的片段是很短的,而测序read length很长,那么就必须要将adaptor sequence去掉,不然的话也有可能造成mappability很低的情况,更多的是否需要remove adaptor sequence的可以看[这里](https://www.ecseq.com/support/ngs/trimming-adapter-sequences-is-it-necessary)
-
cross-correlation analysis
这是基于chip-seq或者atac-seq在感兴趣的特定基因组区域(比如转录因子结合位点),会产生reads的富集。将处在peak区域的正琏和负链的reads调整后,就能算出它们之间的Pearson correlation。一个好的chip-seq,在fragment size那里,会产生一个高的cross-correlation信号,表明测序数据在peaks的地方信号有着明显的富集,如下图:
更加详细的说明可以参考这个网站。