上一篇文章里讲到了如何进行ATAC-seq的简单分析(ATAC-seq分析练习)。在文献中(Cell Stem Cell 2017 Nov 2;21(5):650-664.e8.),作者的分析结果并不是独立的把ATAC-seq和Chip-seq、RNA-seq的结果独立开来,他们把这三种实验的结果进行了整合的分析。从而得到了很多有用的信息。那么这篇文章主要是想探索一下如何把不同的结果进行整合分析。
首先,我们需要下载Chip-seq的文件:数据链接:here
NOTE:这里需要注意的是,作者上传的原始文件里,关于Chip-seq的部分,smad的Chip-seq文件是单端测序,而两个input对照则是双端测序。在比对的时候需要格外注意你的代码,因为bowtie2的比对代码单端和双端的是不一样的。这里就不详细说下载文件和比对的步骤了,如果不知道可以移步:ATAC-seq分析练习(双端比对看这里);ChIP-seq实践(非转录因子,非组蛋白)(单端比对看这里)。前面的步骤就不说了,我们直接从deeptools标准化后的bw文件开始说起:
(一)利用IGV同时查看Chip-seq和ATAC-seq的结果
拿到所有CHIP-seq和ATAC-seq的bw文件,可以在IGV里将这些文件一起导入,然后搜索基因cdc25b,查看基因附近的峰的情况:
上面两个文件是Chip-seq的峰图(红色,粉色),下面5个是ATAC-seq的峰。可以看出smad2/3在两个基因之间有一个结合的峰(红色),而input是空白对照(粉色),自然不会有峰;但是在下面ATAC-seq的文件里,这个峰与ATAC-seq的峰重合,说明ATAC-seq显示的在这个位置上DNA“容易被接近”,很有可能有smad的结合。
(二)peak可视化
接下来我们要用deeptool进行peak分布的可视化。主要是想重复出文章中的这个图:
这幅图的figure legend的说明是这样的:Histograms show chromatin accessibility at Smad2/3 bound regulatory elements.意思是他们将ATAC-seq里的峰,在smad结合位点附近的peak进行了可视化。
在我之前写的文章里(ChIP-seq实践(非转录因子,非组蛋白)),已经讲过deeptools进行可视化有两种模式:scale-regions和reference-point。如果你想看peak在一段基因或者基因组坐标上的富集,用scale-regions;如果你想看peak在转录起始点、终止点,或者其他某一个点附近的富集,你需要用reference-point。根据文献里这张图来看,作者是探索了在smad结合位点附近的富集,那么结合位点是一段序列,所以我需要用scale-regions模式。
$ computeMatrix scale-regions -a 500 -b 500 -m 250 -R /media/yanfang/FYWD/ATAC/callpeak/SCC_1_CD71hi_GFPlo_narrowPeak.bed /media/yanfang/FYWD/ATAC/callpeak/SCC_1_CD71lo_GFPhi_narrowPeak.bed /media/yanfang/FYWD/ATAC/callpeak/SCC3_Tgfbr2KO_A_peaks_narrowPeak.bed /media/yanfang/FYWD/ATAC/callpeak/SCC3_Tgfbr2KO_B_peaks_narrowPeak.bed -S /media/yanfang/FYWD/CHIPSEQ/sambam/smad_SCC1.bin10.bw --skipZeros -o smad_scaleregion_matrix_TSS_6.gz
NOTE:这里参考文件是4个ATAC-seq的bed文件,输入文件是smad的CHIP-seq文件。(如果把参考文件和输入文件交换位置,最后出来的图不是一个峰,而是M型的双峰)
$ plotProfile -m smad_scaleregion_matrix_TSS_6.gz -out merge_profile_6.png