MACS2 Call Peak 参数详细学习

随着测序技术的进步,染色质免疫沉淀技术被广泛用于研究全基因组蛋白-DNA互作。macs 基于一种新的模型可以很好的识别转录因子结合位点。macs 可以直接应用于ChIP-Seq 数据,也可以将ChIP-Seq数据与control结合起来提高特异性。

安装

pip install MACS2
  • MACS2功能:
    • macs2 callpeak 是macs2最主要的一个功能,能够利用bam文件寻找chip peak;
  • macs2 callpeak 使用:
# regular peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
# broad peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1


参数介绍

  • -T/–TREATMENT FILENAME:treat组
  • -C/–CONTROL:control 或 mock(非特异性抗体,如IgG)组
    • control:
      input DNA,没有经过免疫共沉淀处理;
    • mock:
      1)未使用抗体富集与蛋白结合的DNA片段
      2)非特异性抗体,如IgG
  • -N/–NAME:为MACS2输出文件命名
    ‘NAME_peaks.xls’, ‘NAME_negative_peaks.xls’, ‘NAME_peaks.bed’ , ‘NAME_summits.bed’, ‘NAME_model.r’
  • –OUTDIR:MACS2结果文件保存路径
  • -F/–FORMAT FORMAT:MACS2读入文件格式,"ELAND", "BED", "ELANDMULTI", "ELANDEXPORT", "ELANDMULTIPET" (for pair-end tags), "SAM", "BAM", "BOWTIE", "BAMPE" or "BEDPE";默认自动检测输入文件格式,因此可以使用不同格式的文件。
  • -G/–GSIZE:有效基因组大小(可比对基因组大小);基因组中有大量重复序列测序测不到,实际上可比对的基因组大小只有原基因组90% 或 70%;人类默认值是– 2.7e9(UCSC human hg18 assembly)
hs: 2.7e9
mm: 1.87e9
ce: 9e7
dm: 1.2e8
  • -S/–TSIZE:测序读长;如果不设定,MACS 利用输入的前10个序列自动检测;
  • –BW:湿实验中,声波打断基因组的片段长度,用来建立模型;
    --Q/–QVALUE:qvalue (minimum FDR)设定call significant regions的阈值;默认,0.01,对于 broad marks(组蛋白修饰的chipseq),可以使用0.05;Q-values are calculated from p-values using Benjamini-Hochberg procedure.
  • -P/–PVALUE:设定p值时, qvalue不再起作用。
  • -M/–MFOLD:构建模型时,enrichment regions 选用标准(MFOLD range of high-confidence enrichment ratio against background to build model);DEFAULT:5,50 means using all regions not too low (>5) and not too high (<50) to build paired-peaks model. MACS 无法找到超过100 regions 用来构建模型时,只有设定–fix-bimodal情况下,MACS 会调用参数–extsize。
  • –NOLAMBDA:不考虑peak 候选区域的偏差,使用背景λ作为 localλ。
  • –SLOCAL, –LLOCAL:设定两个水平检测peak 区域,从而计算最大λ作为local λ。默认,MACS 采用1000bp为small local region(–slocal),10000bps为large local region(–llocal)计算开放染色体区域的偏差。区域设置的太小,尖峰会掩盖掉旁边显著性的峰。
  • –NOMODEL:MACS 不构建模型。
  • –EXTSIZE:设定–nomodel,MACS 会沿着 5’->3’方向延伸reads;如果转录因子结合区域长200bp,你也不想MACS建模,你就可以设定此参数为200.
  • –SHIFT:–shiftsize已经被 –extsize所替代;–nomodel设定之后,MACS 会用这个参数剪切reads5’,利用–extsize 延伸reads 3’端;如果设为负数,方向相反(3’->5’ );ChIP-Seq建议设置为0;当检测富集切割位点时,例如DNAseI-Seq datasets,此参数应该设为 -1 * half of EXTSIZE( EXTSIZE设为200,此参数为-100).
    两个例子:
    DNAse-Seq,想将平滑窗口设为200bps时,使用参数‘–nomodel –shift -100 –extsize 200’。
    nucleosome-seq,使用核小体一半大小进行小波分析获得核小体中心的峰;当缠绕核小体DNA长度为147bps,可使用参数‘–nomodel –shift 37 –extsize 73’。
  • –KEEP-DUP:默认使用pvalue( 1e-5)基于二项式分布计算每个位置maximum tags;‘all’表示保留所有tags,如果设定了一个整数,那就是同一位置保留tags 的最大数。默认值为1,同一位置保留1 tag。
  • –BROAD:此参数会依据一个低的阈值(–broad-cutoff)将peaK附近富集区域归类到 broad region输出到BED12 格式文件。broad region最大长度是MACS计算的d的4倍。DEFAULT: False
  • –BROAD-CUTOFF:broad region阈值;pvalue 设定就是pvalue ,未设定就是qvalue;DEFAULT: 0.1。
  • –TO-LARGE:此参数设定后,线性放大小样本到大样本一样的深度;默认是缩小大样本到小样本深度。
    注意:放大小样本可能产生更多的假阳性。
  • –DOWN-SAMPLE:设定此参数,使用随机抽样方法缩小大样本。随机抽样会使记过不稳定和不可重复。
  • -B/–BDG:保留the fragment pileup, control lambda, -log10pvalue 和 -log10qvalue scores到bedGraph 文件。
    NAME+’_treat_pileup.bdg’:实验组数据
    NAME+’_control_lambda.bdg’:对照组local lambda values
    NAME+’_treat_pvalue.bdg’: Poisson pvalue scores (in -log10(pvalue) form)
    NAME+’_treat_qvalue.bdg’ : q-value scores from Benjamini–Hochberg–Yekutieli procedure
  • –CALL-SUMMITS:重新分析信号峰,从而获得主峰的临近峰;当要检测主峰周围的结合事件时,可使用此参数;结果中,同一主峰的临近峰有一样的范围 和不一样的分数,位置。
  • –VERBOSE:隐藏MACS运行过程信息,设置0;想了解各条染色体peak信息,设置为3或>3的数。

结果文件

1.NAME_peaks.xls
存放peak信息的文件

  • 染色体名
  • peak 起始位置
  • peak 终止位置
  • peak 区域长度
  • peak summit位置
  • peak summit位置堆积信号
  • -log10(pvalue)
  • fold enrichment for this peak summit against random Poisson distribution with local lambda
  • -log10(qvalue) at peak summit
  • peak name

2.NAME_peaks.narrowPeak
BED6+4格式,包含peak位置信息,peak summit, pvalue and qvalue,可以使用UCSC genome browser查看。其中几列信息如下:

  • 1th: 染色体名
  • 2th: peak 起始位置
  • 3th: peak 终止位置
  • 4th: peak name
  • 5th: integer score for display, int(-10*log10(pvalue))
  • 7th: fold-change
  • 8th: -log10(pvalue)
  • 9th: -log10qvalue
  • 10th: 峰位与peak起点的距离

3.NAME_summits.bed
BED格式,包含peak summits(peak最高点)位置;如果想寻找结合位点的motifs ,建议使用此文件。

  • 5th: -log10pvalue

4.NAME_peaks.broadPeak
ED6+3格式,与narrowPeak类似,除了没有第10列peak summit的注释信息。

5.NAME_peaks.gappedPeak
BED12+3格式,存放broad region 和 narrow peaks,可以使用UCSC genome browser查看。

6.NAME_model.r
R程序,运行后生成基于输入数据产生的模型图片
$ Rscript NAME_model.r

7. .bdg files
bedGraph 文件,可以导入UCSC genome browser查看,或转格式为bigWig 文件;

  • treat_pileup :实验组bedGraph 文件
  • control_lambda :对照组bedGraph 文件

参考:

Project description

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343