以下罗列了ChIP-seq数据分析中的ENCODE标准,针对不同的免疫共沉淀类型有不同的标准,以下从组蛋白和转录因子2个方向介绍:
一、组蛋白
生物学重复:
至少2个
抗体:
满足ENCODE Consortium的标准。可以进一步参考以下文献标准:https://www.encodeproject.org/documents/4bb40778-387a-47c4-ab24-cebe64ead5ae/@@download/attachment/ENCODE_Approved_Oct_2016_Histone_and_Chromatin_associated_Proteins_Antibody_Characterization_Guidelines.pdf
input对照:
每次ChIP实验必需有input对照样品
文库复杂度:
由Non-Redundant Fraction (NRF) 、PCR Bottlenecking Coefficients 1 and 2, or PBC1 and PBC2进行计算,标准为:NRF>0.9, PBC1>0.9, and PBC2>10.
数据量:
对于narrow-peak组蛋白实验,每次重复 ≥ 20M 可用的插入片段
对于broad-peak组蛋白实验, 每个重复 ≥45 M 可用的插入片段
进一步参考:https://www.encodeproject.org/data-standards/terms/#read-depth
注意! H3K9me3是一个例外,其富集于基因组中的重复区域。相对于其他的broad标记,仅有少量的H3K9me3 peaks位于非重复区域。
这就导致了许多ChIP-seq数据不能比对到基因组中的唯一区域。 组织和原代细胞(primary cells)需要保证45M的总比对reads。
下表为宽(broad)、窄(narrow)峰的组蛋白类型:
二、转录因子
大部分指标同组蛋白
以下为特有指标:
数据量:
至少20M可用的插入片段
低深度:10-20 M
不足的: 5-10 M
极低深度: < 5 M
可重复性:
IDR values (Irreproducible Discovery Rate)
重复间和假定重复间的IDR值均要小于2
进一步参考:https://sites.google.com/site/anshulkundaje/projects/idr
三、参考资料:
https://www.encodeproject.org/chip-seq/histone/#standards
https://www.encodeproject.org/chip-seq/transcription_factor/