染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。
流程
知乎文章:https://zhuanlan.zhihu.com/p/90180058
简书流程文章:https://www.jianshu.com/p/21e8c51fca23
从数据到igv可视化分析:https://blog.csdn.net/qq_29300341/article/details/54811085
1.数据fastqc
使用fastqc软件
fastqc file1 file2
使用multiqc软件进行多个qc结果的合并
multiqc <analysis directory>
2.基因组比对
2.1bowtie2
bowtie主要适用于将短序列比对到参考genome上,速度快。
mapping序列到genome上,首先要建立genome的index。command需要待建立的genome文件,和输出index的文件夹。
bowtie2-build [options]* <reference_in> <bt2_index_base>
bowtie将reads对比到genome上,生成sam文件;sam文件是序列比对到基因组上的结果展示,或者展示多重比对结果。sam文件包括比对的注释信息(header section)和比对结果部分(alignment section)。注释信息是比对操作的说明,包括参考序列,程序说明等;比对结果事对每一个片段(segment)的说明,包括比对到参考序列的位置,mapping的质量等的说明。
bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]
bowtie2对比序列,首先要看是单端测序还是双端测序,双端测序需要将两端测序的链匹配起来。还可以选定输出文件的后缀和存放的目录。
使用samtools将sam文件转换为bam文件(view),将bam序列进行排序(sort)。使用samtools对bam文件的对比结果,并输出统计结果,检验测序read的质量。
samtools view [options] <in.bam>|<in.sam>|<in.cram> [region ...]
options -b
输出bam文件
samtools sort [options...] [in.bam]
对bam文件进行sort排序能进一步减小文件体积,加快运算速度。
3.实验组和control组对比差异
3.1 macs2比较不同组数据callpeak
chip-seq的可以检测的富集方式包括两种:1.broad domains和narrow peak。broad domain是组蛋白在整个基因组的修饰,narrow peaks是特定的突出指,如转录因子的结合。当需要对特定的目标靶点进行研究时,可以利用treat组和control组进行对比,找出二者的不同。所谓callpeak,是指寻找基因组上的表达峰peak,chip-seq是对蛋白结合的DNA进行测序,每个read都意味着有一个蛋白结合到基因组的该处上,基因组的peak就是read表达量最高的地方,调控因子一般都在gene的上游或者下游,离gene越近的调控因子与gene表达的相关性越高,所以要callpeak,寻找不同gene之间以及gene和转录因子之间的关系等。
macs2 callpeak [-h] -t TFILE [TFILE ...] [-c [CFILE [CFILE ...]]]
-t
为treatment组数据,-c
为control组数据,-g
选择genome,还可以设置输出的目录和文件名,--bdg
可以bdg文件,用于igv查看peaks。
macs检验值设立:https://www.jianshu.com/p/390f6d57488d
3.2 IGV分析
将callpeak生成的.bdg文件直接放入IGV(intergrative genomic viewer)。
4.motif分析
motif分析。寻找peak序列的共同模式序列。motif的输入文件为call的".bed"文件。“.bed”文件包含的信息为peak(summit)所在染色体和具体位置。
homer annotatePeak.pl
annotatePeaks.pl <peak file | tss> <genome version> [additional options...]
分为两种,一种只对peak的信息进行注释,展现peak相关的gene和到geneTSS
(transcription start site)的距离。
另一种是对peak和read的信息进行annotate,显示reads在peak summit 两侧的分布情况。
首先要用homer的makeTagDirectory
对.bam文件进行处理生成tag文件夹。生成tag文件的处理,包括对bam文件的排序,质控,以及生成一些后续分析需要的重要参数。
然后再进行annotatePeaks.pl分析,加上参数
-d <tag directory 1> [tag directory 2] ... (list of experiment directories to show tag counts for)
再使用生成的annotation的文件,使用R进行绘图。
deeptools分析画图。
homer findmotifsGenome.pl
只需要macs得出的peaks的bed文件,和选择参考gene组就可以。
findMotifsGenome.pl <pos file> <genome> <output directory> [additional options]