首先这个名字要写对:ChIP-seq,有很多论文没注意大小写,其实没理解每个字母所代表的含义。
ChIP-seq大致原理看一看:
Figure 1: Workflow of a ChIP-seq analysis: Chromatin in the nucleus (1) is cross-linked and sheared (2), followed by
enrichment of complexes containing the target protein using immunoprecipitation (3). Short reads obtained from
massively parallel sequencing (4) are mapped to a reference genome (5) yielding in a distribution of tags on the
genome (adapted from http://en.wikipedia.org/wiki/File:Chip_sequencing2.png 2008 - 02-29)
一句话说完,其实就是探索你要研究的蛋白在全基因组范围内的结合位点。
先用甲醛把细胞内蛋白和DNA结合的生理状态固定,类似照相机拍摄画面。之后就是打断这些DNA,再用你研究的蛋白抗体富集你研究的蛋白和DNA结合的这些碎片。获得这些碎片后再把蛋白和DNA解开交联。之后就是测序建库测序。
要看的论文很多。看过的先记录一下:
1,Practical Guidelines for the Comprehensive Analysis of
ChIP-seq Data
文章从数据质控,比对,peak calling,peak注释,motif分析都给出了注意点,值得一读
论文从数据的质控到最后的peak注释都给了很多说明。
2,硕士论文
基于ChIP-seq全基因组识别毛竹笋尖与鞭笋尖组蛋白修饰位点
文章使用了组蛋白修饰做了chip-seq,从实验流程到数据分析,详细。值得一看。特别是MACS的使用方法
3,视频教程
B站的https://www.bilibili.com/video/BV1Yx411x7kE
4,网上别人的实践
拟南芥的数据,准备实践一下
https://www.jianshu.com/p/78571f87bef9
MACS2 callpeak原理
https://www.plob.org/article/7227.html
https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html
记录一下笔记:
富集倍数:
实验样本的富集倍数要比对照组要大于2倍到50倍之间,太大倍数会被认为是建库时的PCR重复
两个图的含义
下面这张图是形象化地解释了上面这个图。视频亮点之一,其他跑流程的教程没有把图说明白。
左边曲线图是在整个基因组范围内,求出每段区间覆盖的reads数目的平均值,然后以X轴为为基因区间,Y轴为覆盖在某个区段的reads数,连成曲线图绘制。
右边热图是把基因组所有基因,每个基因内的TSS上下游区间内的所有reads数目加和,然后按照大小排序,再把每个区间内的reads按照示意图的表示给画出来。
实际两张图表示的一个意思,都是在全基因组范围内查看TSS上下游区间内的reads分布,也就是这个蛋白的富集区间就是在大部分基因的TSS周围。
(下次再忘记可以翻翻视频,43:28处开始讲这两个图含义)
一般来说,基因结合基因TSS位置,可能是结合很多基因,也就是广谱调控。
接下来视频是讲实际操作:
1,下载数据
1)下载数据的脚本
最好把下载的数据链接写在一个脚本里面。然后记录好数据的各种信息,方便日后查看。
2)文件改名的脚本,也可以写在一起,放进一个脚本
命名的规范:
命名之前的文件名字是啥。重新命名后的文件名字是啥。
要在过段时间后,还能知道这个文件当初是用来干嘛的。
举例:
293是细胞系
chip-seq是数据类型
control是对照
rep1是重复1
R1是PE测序的read1文件
fasq是文件类型
gz是压缩文件
2,质控
fastqc
可以把建立文件夹,质控等步骤的命令写在一个bash文件内,一起执行
3,比对
重点学习这部分,批处理脚本
比对结果
for循环嵌套:
外层循环每做一次,内层便全部做一次。
ps grep cut xargs -i kill -9
组合使用杀掉多个进程
4,过滤掉map质量分数低的reads
比对完后做mapQ>20的过滤,sam转为bam
异步操作就可以
samtools view -q 20 -h -b -o sam_file &
-q 仅仅保存质量分数大于多少的reads
-h保留头文件
-b输出bam
-o输出文件
bam文件名字
-@ 核心数
sam文件名字
5,sort bam
6 peak calling
使用MACS2
90:50左右开始说MACS
完结-
视频有些是口误,自己鉴别。学到不少东西。下面自己要把循环脚本和代码规范练习一下。只记录了自己认为重要的东西。如果想学习,最好还是要看视频。