chip-seq是用来分析蛋白和DNA互作的方法。chip-seq结合染色质免疫共沉淀和高通量测序技术来找到DNA和蛋白的结合位点。它可用于精确定位任何感兴趣的蛋白质在全基因组上的结合位点。
chip-seq主要是用来研究转录因子和别的一些染色质相关蛋白对表型影响的分子机制
chip-seq实验的前期准备
- 实验步骤
chip-seq中的一些名词
样本组,如果在pcr反应中条带亮度超过input,很可能在免疫沉淀中存在非特异性结果,带来假阳性结果;如果在pcr反应中条带亮度低于或与lgg相当,很可能带来假阴性结果;input作为阳性对照,如果在pcr反应中无条带或条带与lgg一样弱,很可能会导致假阴性结果产生;lgg作为阴性对照,如果在pcr反应中条带很明显,甚至与input或样本组无差别,很可能会带来假阳性结果;blank作为pcr反应的空白对照,如果出现条带,则说明存在假阳性结果,这个最容易分析,肯定是pcr反应条件或反应体系出现问题。
input 是指断裂后的基因组dna,它需要与沉淀后的样品dna一起经过逆转交联,dna纯化,以及最后的pcr或其他方法检测,但是不进行免疫沉淀。任何ha-tagged protein对染色质状态的影响都会在input中呈现出来。
如果是input chip-seq,结果中会不会有我们想要看到的真的位点呢? 是有的,因为它就是整个基因组上被打断的未经特异性选择过的随机(理论上)片段。如果用pcr来做的话,也同样可能在我们想看的位置看到条带,因为它有基因组上的所有位置。但是,在chip-seq中,input阳性位点的相对表达量应该比我们的实验组中低得多得多,毕竟实验组的那些位点是我们特意富集出来的结果。通过input对照排除因本底表达水平高或一些非特异性结合所造成的假阳性peaks。 而所谓的lgg mock 是说找非特异抗体作为阴性对照,其理论上不会chip下来任何dna片段。但是近来也有很多文章认为用它是有问题的,最好还是用input来作为对照。 如果没有input对照怎么办呢?其实通过对大量的公用数据input组进行分析,我们可以发现在拟南芥中总有那么一百多个位点,不管是什么实验的input都会出现peaks,通常我们会把这些位置列为黑名单不予考虑。 (每个物种的peaks黑名单都是可以谷歌搜索到下载的)
参考
Question: chip-seq "mock" and "control"
Introduction to ChIP-Seq
数据分析
我会使用GoldCLIP: Gel-omitted Ligation-dependent CLIP这篇文章上的数据和方法进行练习学习,我会先将流程走一遍然后再去讨论中间的细节
下载测序数据
我是使用aspera来下载数据的,aspera的使用请看安装虚拟机遇到问题,下面是aspera.sh的脚本
#下载文件
for i in `seq 6 9`
do
ascp -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /sra/sra-instant/reads/ByRun/sra/SRR/SRR680/SRR680630$i/SRR680630$i.sra ./data/
fastq-dump --split-3 ./data/SRR680630$i.sra -O ./data/
rm ./data/SRR680630$i.sra
done
for i in `seq 10 13`
do
ascp -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /sra/sra-instant/reads/ByRun/sra/SRR/SRR680/SRR68063$i/SRR68063$i.sra ./data/
fastq-dump --split-3 ./data/SRR68063$i.sra -O ./data/
rm ./data/SRR68063$i.sra
done
数据的过滤
使用cutadapt进行过滤和去接头下面是cutadapt.sh的脚本
for i in `seq 6 9`
do
cutadapt -a=AGATCGGAAGAGCGGTTCAG --error-rate=0.2 --quality-cutoff=20 --minimum-length=24 -o data/SRR680630"$i"_cutadapt.fastq data/SRR680630"$i".fastq
done
for i in `seq 10 13`
do
cutadapt -a=AGATCGGAAGAGCGGTTCAG --error-rate=0.2 --quality-cutoff=20 --minimum-length=24 -o data/SRR68063"$i"_cutadapt.fastq data/SRR68063"$i".fastq
done
比对
安装macs2
因为macs2需要python2.7的版本,所以就用conda重新创建一个环境
conda create -n env_name python=2.7
# To activate this environment, use:
# > source activate env_name
#
# To deactivate an active environment, use:
# > source deactivate
然后激活python2.7环境并下载macs2
source activate env_name
conda install macs2
使用macs2进行peak calling
macs2 callpeak -t N_ChIP.fastq.sam.bam -c N_input.fastq.sam.bam -f BAM -B -g 3.5e6 -n xu_mut_rep1 --bw 200 --nomodel --shift 0
参考
ChIP-seq阴阳-正负对照
Hands-on introduction to ChIP-seq analysis - VIB Training