哈哈,搜了一圈没发现网上有关于MAnorm的中文教程或者是说明,本文将是第一篇~撒花✿✿ヽ(°▽°)ノ✿那就要用心写了,感到鸭梨.jpg==
首先,MAnorm是什么,可以做什么呢?
简单地说,这是一款寻找两个ChIP-Seq样本之间差异peak的软件。一般ChIP的流程中,若是单一处理的细胞系,那么callpeak之后可能会做binding motif的分析或是peak相关gene的功能分析等;但若是两种处理的细胞系(比如饥饿组和对照组),我们肯定想要知道两种处理下,组蛋白修饰的差异,类似于RNA-Seq中差异表达基因的分析,所以这时就需要进行差异分析。MAnorm就可以实现这样的分析需要。
一般来说,上述差异分析不一定要在peaks水平进行,完全可以在reads水平,这个就叫做“一步法”;而通过先分别callpeak再比较peaks的density或者depth等,就是所谓的“两步法”。不同方法有不同类型的软件可供选择,这就是ChIP分析成熟的地方,不过技术流大可根据自己的目的写脚本进行个性化处理,这个暂且不表。
那么差异分析软件如何选择呢?根据组蛋白修饰类型、样品是否有重复、是否需要callpeak(即predefined region set),下图一目了然:
我的样品有宽峰窄峰两种修饰、无重复,项目时间紧张尽量想用一个软件实现,所以选择了MAnorm。
MAnorm的原理
话不多说,直接看图:
概括的说,通过比较两个样品的common peak的density差异,标准化unique peaks,也就是说,既然两个样本间common peak强度一致,那么peak内的reads差异倍数就是测序深度/密度的差异,能够作为normalization的标准。直接比较标准化后的peaks,避免了不同样品信噪比不同的问题。
这个算法基于这样的假设:两个样本间都有的 peak 或是 banding 位点,相关蛋白的结合机制相同,故应有相同的 binding intensity。
MAnorm的使用
1.安装
1.1.4版本:
conda/PyPi
需要注意的是,此版本只支持bed格式且不支持paired-end模式,会把所有reads当成single-end处理。若reads文件想用支持更多的格式(sam/bam/bedpe等),请用v1.2.0。
1.2.0版本:
暂时只能从Github复制源码进行安装。方法:
git clone https://github.com/shao-lab/MAnorm.git
unzip MAnorm-1.2.0.zip
cd MAnorm
pip install . ###注意.不要漏掉!
manorm --version ##检查一下是否安装成功,成功后将程序软链接至我的bin或添加至环境变量
2.数据准备
建议首先阅读使用说明,最好从linux中manorm --help
,或者在Github中找到相应版本的附带说明,这一点很重要,因为有时网上搜到的说明和你实际用的版本不一致,会走弯路,不要问我咋知道的。
所以要准备的文件有4个:
sample1_peaks.bed/sample2_peaks.bed:
默认bed,支持MACS2出来的结果peaks.xls,软件自动识别无需调整。
sample1_reads.bed/sample2_reads.bed:
默认bed,v1.2.0开始支持其他格式(sam/bam),需使用参数 -rf
将如上文件移动至新文件夹下待用。***tips:这里不再需要对照组In的文件了
3.运行
基本命令(--p1 --p2 --r1 --r2 -o是5个必需参数,注意是两个-):
manorm
--p1 sample1_peaks.xls
--p2 sample2_peaks.xls
--pf macs #指定peaks form
--r1 sample1_reads.sam
--r2 sample2_reads.sam
--rf sam #指定reads form
--pe #paired-end模式
-o output_dir #指定输出文件路径
建议试运行一组数据先,根据报错文件调整格式。软件还不太成熟,需要多调整格式。
4.结果
运行约10min,产生4个结果文件:
sample1peaks_vs_sample2peaks_all_MAvalues.xls:这个是主要的结果文件,Excel格式,里面的peak_group有标注是common/1unique/2unique的。
output_figures 文件夹:4个图,计算的Mvalue Avalue(MA)及校正之后的MA,大概就是这个意思,还需要读文献琢磨
output_filters 文件夹:3个peaks.bed文件,可能就是条件严格了点之后的结果,两个biased包括的peaks很少,一个unbiased包括的peaks很多跟all那个文件差不了多少。
output_tracks 文件夹:3个wig文件,是M A values的,UCSC可视的文件类型。
综上,决定用main output file即第一个结果,进行后面的分析。