Genrich介绍
Genrich 是一个用于从高通量测序数据中识别基因组区域的显著富集(即peak calling)的生物信息学工具。它主要用于处理ChIP-seq(染色质免疫沉淀测序)、ATAC-seq(转座酶可及性测序)和DNAse-seq(DNase I敏感位点测序)等实验的数据。这些技术广泛用于研究蛋白质与DNA的相互作用以及染色质的开放性。
主要特点和功能:
处理多种读取类型:Genrich 能够处理配对末端和单端读取。对于配对末端读取,Genrich可以准确推断出两个正确配对比对之间的全长DNA片段。
高级映射策略:Genrich 在分析映射到多个位置的读取时,能够为每个位置添加一个分数计数,这有助于在基因组的难以访问区域进行峰值检测。
去除PCR重复:Genrich提供了去除PCR重复的选项,这对于确保数据质量和避免假阳性非常重要。
统计分析:它使用对数正态分布作为零模型来计算每个基因组位置的p值,可以选择将p值转换为q值,后者可以用来控制假发现率。
灵活的分析模式:Genrich 不仅支持标准的ChIP-seq数据分析,还提供了专门的ATAC-seq分析模式,以及能够调整分析参数以适应不同类型的实验数据。
效率和性能:该工具在性能上进行了优化,可以处理大规模数据集,并能够在合理的时间内返回结果。
多重复实验分析:Genrich 能够处理多个重复实验的数据,通过合并各重复的p值并进行统计调整来提高峰值检测的可靠性。
总的来说,Genrich 是一种强大的工具,用于基因组数据分析,特别是在寻找与生物学调控相关的关键基因组区域方面。它的多功能性和高效性使其成为生物信息学领域广泛使用的工具之一。
安装
下载:https://github.com/jsh58/Genrich/releases
wget https://github.com/jsh58/Genrich/archive/refs/tags/v0.6.1.tar.gz
tar zxf v0.6.1.tar.gz
cd Genrich-0.6.1/
make
添加到bashrc中或链接到/user/local/bin/
sudo ln -s /path/to/Genrich/Genrich-0.6.1/Genrich /usr/local/bin/
用法:
$ ./Genrich -t sample.bam -o sample.narrowPeak -v
ATAC-seq分析模块
Genrich -t mysample.bam -o mysample.narrowPeak -f mysample.genrich.log -j -r -y -e MT -p 0.01
-j Use ATAC-seq mode (def. false)
-d <int> Expand cut sites to <int> bp (def. 100)
-D Skip Tn5 adjustments of cut sites (def. false)</pre>
这些参数是 Genrich 命令行工具的一部分,用于分析高通量测序数据以识别基因组上的显著富集区域(peaks)。下面是这些参数的详细解释:
必需的参数:
-t <file>
: 输入的 SAM/BAM 文件,包含实验样本的数据。-o <file>
: 输出文件,储存检测到的峰值,格式为 ENCODE narrowPeak。
可选的输入/输出参数:
-c <file>
: 输入的 SAM/BAM 文件,包含对照样本的数据。-f <file>
: 输出 bedgraph 格式的文件,用于显示 p/q 值。-k <file>
: 输出 bedgraph 格式的文件,用于显示堆叠值和 p 值。-b <file>
: 输出 BED 格式的文件,用于显示读取/片段/区间。-R <file>
: 输出 PCR 重复的文件(仅在使用-r
参数时有效)。
过滤选项:
-r
: 移除 PCR 重复。-e <arg>
: 排除的染色体列表,用逗号分隔。-E <file>
: 输入 BED 文件,定义要排除的基因组区域。-m <int>
: 保留对齐的最小 MAPQ 分数(默认为 0)。-s <float>
: 保留次优对齐,其对齐得分 (AS) 至少为最佳对齐得分减去<float>
(默认为 0)。-y
: 保留未配对的alignments。-w <int>
: 保留未配对的alignments,并将长度修改为<int>
。-x
: 保留未配对的alignments,并将长度修改为配对平均值。
ATAC-seq 特定选项:
-j
: 使用 ATAC-seq 模式(默认为关闭)。-d <int>
: 将切割位点扩展到<int>
bp(默认为 100)。-D
: 跳过 Tn5 切割位点的调整(默认为关闭)。
峰值调用选项:
-p <float>
: 最大 p 值阈值(默认为 0.01)。-q <float>
: 最大 q 值阈值(FDR-adjusted p-value; 默认为 1)。-a <float>
: 峰值的最小 AUC 阈值(默认为 200.0)。-l <int>
: 峰值的最小长度(默认为 0)。-g <int>
: 显著位点之间的最大距离(默认为 100)。
其他选项:
-X
: 跳过峰值调用步骤。-P
: 直接从日志文件(由-f
生成)调用峰值。-z
: 使用 gzip 压缩输出文件。-v
: 打印状态更新和计数到标准错误输出(stderr)。
这些参数提供了对 Genrich 工具行为的广泛控制,使用户可以根据具体的实验设计和数据类型调整分析过程。
Genrich用于鉴定基因组中峰值(peaks)主要步骤:
解析实验样本的比对:首先,解析与参考基因组比对的配对末端读取,以准确推断出跨越两个正确配对的比对的完整DNA片段。默认情况下,不考虑未配对的比对,尽管有三个选项可以保留这些比对。
创建实验“堆叠”:通过计算覆盖基因组每个位置的DNA片段的数量来创建。
使用对照样本创建对照堆叠:如果可用的话,使用对照样本和背景水平来创建一个对照堆叠。
计算每个基因组位置的p值:这一计算假定一个以对照/背景堆叠值为参数μ的对数正态分布为零模型。
(可选) 将p值转换为q值:使用Benjamini-Hochberg程序从p值计算q值。
计算所有达到统计显著区域的“曲线下面积”(AUC):例如,q < 0.05 ⇒ -log(q) > 1.301。
合并附近区域并调用峰值:将总AUC高于阈值的区域合并,并称之为峰值。
此外,Genrich还提供多重映射读取的处理选项,允许在否则无法接触到的基因组区域检测峰值,并且还提供了一种用于ATAC-seq的替代分析模式。此外,Genrich还具有去除PCR重复的功能,并计算基因组长度以用于计算背景堆叠值和q值。
该方法允许使用多个重复实验共同调用峰值,首先分别分析重复实验,然后通过Fisher方法合并各个位置的p值,转换为q值并调用峰值。
reference:https://github.com/jsh58/Genrich