是我自己的理解+操作笔记
1 Introduction
差异甲基化区域 (DMR) 的检测是表征不同表观遗传状态的必要先决条件。我们提出了一个新的程序,metilene,以无与伦比的特异性和灵敏度识别全基因组和目标数据中的 DMR。
二进制分割算法与二维统计测试相结合,允许在几分钟内检测多组样本的大型甲基化实验中的 DMR,而不是使用现成的硬件几天。metilene 优于其他最先进的低覆盖率数据工具,并且可以估计缺失数据。
因此,metilene 是一种多功能工具,可在全球全基因组水平上研究表观遗传修饰对分化/发育、肿瘤发生和系统生物学的影响。无论是在每组数十个样本的国际联盟框架内,还是在没有生物复制的情况下,它都会产生非常重要和可靠的结果。
2 Requirements
Metilene可以作为32/64位linux的预编译版本,也可以作为从源代码构建的源代码。它运行在普通的sesktop机器上,并支持多线程。然而,底层算法是
如果需要,只运行单线程足够高效。(简单来说,得装在linux里)
3 Installation
Manual给的网站可以安装(http://http//www.bioinf.uni-leipzig.de/Software/metilene/)
conda可以安装:
4 Quick start
DMRs的从头注释
$ metilene -a g1 -b g2 methylation-file
而包含所有甲基化数据的输入文件是一个按以下格式以制表符分隔的排序文件
表头:
其中第一列表示染色体,第二列表示染色体的基因组位置CpG和以下所有列的绝对甲基化比。所有比率列都专用于由标题中的前缀描述的组,例如g1或g2。选项-a和-b表示组考虑。比率列的顺序可以混合,其他组,例如g3_xxx,可以出现并将出现调用-a g1和-b g2时省略。
5 DMR de-novo annotation
metilene 的默认模式从头注释 DMR,而不使用任何关于基因组特征(例如,启动子区域)的先验信息。这里使用了对两组平均差信号的快速循环二进制分割方法 (Siegmund, 1986; Olshen et al., 2004)。通过额外的过滤步骤后,使用二维 Kolmogorov-Smirnov-Test (KS-test)(Fasano 和 Franceschini,1987)测试潜在的 DMR。DMR 最终通过 Mann-Whitney-U 测试进行测试。
6 DMR annotation in known features
代替注释从头 DMR,metilene 可用于在给定的一组 genomc 特征中找到重要的 DMR。这里,跳过调用循环二进制分割算法的第一步。相反,对每个特征执行统计测试,并在输出中报告相应的 p 值。使用“-B bedfile ”选项通过与数据输入文件相同排序的bedfile 定义窗口。
7 DMC annotation
metilene 提供了测试每个 CpG 差异甲基化的可能性。计算每个 CpG 位点的统计检验(KS 检验和 Mann-Whitney-U 检验),并在输出中报告相应的 p 值。
8 Input
输入由单个 SORTED(用于基因组位置)制表符分隔文件组成。它必须包含以下格式的标题行:
| chr | pos | g1_xxx | g1_xxx | [...] | g2_xxx | g2_xxx | [...] |
or
| chr | pos | g2_xxx | g3_xxx | [...] | g1_xxx | g2_xxx | [...]
或者其他无序的列。以下以制表符分隔的行包含每个C或CpG cite的数据,具体取决于用户的选择。样本的隶属关系通过唯一的前缀分配,例如,“g1”,“g2”,在调用metilene时作为参数传递。不需要下划线,并且可以完全自由地标记名称。输入文件可以包含两个以上组的数据,但是,只考虑选择的两个组。
Generate an input file from multiple bed files
使用bedtools unionbedg来生成输入文件
首先
cut -f 1,2,3,5 Normal_measure.tsv > normal_sample.bg #提取输入文件的chr,start,end和methration值
cut -f 1,2,3,5 Tumor_measure.tsv > tumor_sample.bg
sed -i '1d' normal_sample.bg;sed -i '1d' tumor_sample.bg; #去除第一行,因为bedtools unionbedg输入文件不需要第一行
输入文件是这样的格式,注意需要使用tab分割
然后使用bedtools unionbedg
bedtools unionbedg -i normal_sample.bg tumor_sample.bg -header -filler N/A > unionFile.bed;
结果文件是这样:
但是没有分组名,需要在第一行加上:
cut -f 1,2,4,5 unionFile.bed > unionFile_noend.bed #生成标准输入文件
sed -i '1s/^/chr\tpos\tnormal\ttumor\n/' unionFile_noend.bed #加行名
11 Usage
metilene -a g1 -b g2 methylation-file
metilene -a g1 -b g2 data_merged.tsv