日常掰虾
前面分别学习了DNA甲基化的基础知识和甲基化BS-seq的分析方法,不知道的同学可以戳这里,DNA甲基化知识概述、DNA甲基化 Bismark & BAMAP 流程跑起来。
今天接着来说DNA甲基化相关的内容!BS-seq做为DNA甲基化的“金标准”还是有一定缺陷的,所以科学家们一直在寻找更加无损的测序方法。目前已经崭露光芒的方向是将甲基化的C碱基转换为T碱基的技术。
到底这种技术好不好呢?
带着这个疑问,我们一起继续往下看。
今天的主要内容关于(TET-assisted pyridine borane sequencing),该技术的核心为Bisulfite-free,同时利用将甲基化的C碱基转换为T碱基的方法。
5caC/5fC 偶遇 Pyridine borane
目前已有实验证明TET蛋白可以将5-甲基胞嘧啶(5mC)and 5-羟甲基胞嘧啶(5hmC)氧化最终转换为 5-羧基胞嘧啶(5caC),在此基础上,作者通过MALDI技术发现5caC可以被吡啶硼烷及衍生物(Pyridine borane)还原为二氢尿嘧啶(dihydrouracil,DHU),而DHU在链扩增方面与自然的U碱基并没有差异,这样经过PCR扩增DHU可以转化为T,从而到达不用亚硫酸盐处理将甲基化的C碱基转为T碱基的目的。其实,不仅5caC可以被吡啶硼烷还原,5-甲酰基胞嘧啶(5fC)也可以被还原为DHU,且两种的还原效率都很高。另外,5caC 和 5fC 与吡啶硼烷还原反应可以分别被1-ethyl-3-(3-dimethylaminopropyl) carbodiimide、hydroxylamine conjugation这两化合物所阻断,这大大增加了TAPS技术的灵活性,如果结合市场上其他的甲基化测序技术,理论上可以分别测定上面提到的几种甲基化情况。
做为Bisulfite-free的技术,TAPS的优势主要体现在以下几个方面:1、实验时间更短;2、实验条件更温和,室温条件即可,而且对DNA片段的影响很小,基本不会引起DNA的降解,可以保留更长的DNA片段,最长可达10kb。这样构建出来的文库具有更多的unique read,即文库具有更高的复杂度;3、具有更好的测序质量,由于TAPS是将甲基化的C碱基转换为T碱基,而甲基化的C在基因组中占比很小,转划后对文库的碱基平衡几乎没有影响。从而提高碱基测序的质量。
TAPS VS WGBS
从上面的结果可以看出TAPS技术的优势很明显,但只有这些优势可不行,结果要稳定才可以被接受。所以作者用TAPS的结果与“金标准”BS-seq做了一个对比,结果也显示两者甲基化结果的overlap很高。
分析
前面介绍了技术,下面来看看如何分析TAPS的数据。作者基因用python打包了数据分析的软件,用起来还是很方便的:
#安装
pip install astair
#align
mkdir -p align
astair align -f genome.fa -1 sample_R1.fq.gz -2 sample_R2.fq.gz -d align
#Call methylation
mkdir methcall
astair call -i align/sample_mCtoT.cram -f genome.fa --context all -d methcall
输出目录结构如下:
taps
├── align
│ ├── taps_mCtoT.bam
│ └── taps_mCtoT.bam.bai
└── call
├── taps_mCtoT_all.mods
└── taps_mCtoT_all.stats
*_mCtoT_all.mods:甲基化文件,内容如下:
#CHROM START END MOD_LEVEL MOD UNMOD REF ALT SPECIFIC_CONTEXT CONTEXT SNV TOTAL_DEPTH
chr1 3000002 3000003 0.0 0 1 C T CTG CHG No 2
chr1 3000004 3000005 0.0 0 2 G A CAG CHG No 3
chr1 3000008 3000009 0.0 0 2 C T CTA CHH No 4
chr1 3000015 3000016 0.0 0 3 G A CAA CHH No 5
chr1 3000017 3000018 0.0 0 3 G A CAC CHH No 5
chr1 3000018 3000019 * 0 0 G A CCA CHH homozygous 5
chr1 3000022 3000023 * 0 0 C A CTT CHH homozygous 4
chr1 3000026 3000027 0.0 0 3 G A CAA CHH No 7
chr1 3000028 3000029 0.0 0 3 G A CTC CHH No 7
chr1 3000029 3000030 0.0 0 3 G A CCT CHH No 7
*_mCtoT_all.stats是所有甲基化的统计信息。
虽然软件用起来很方便,但是毕竟只是用python打包了一下,真正需要调用环境中软件。比如align这步,会用环境中的bwa、samtools。所以安装好astair
并不能直接使用,使用时还要保证调用的软件在环境变量里面。
碎碎念
从文章结果来看,TAPS的结果与BS-seq有很好的一致性,而且其优势也很明显,总体来说TAPS的潜力还是很大的,具体能不能成为主流,我们静观其变。按照惯例下面会给出参考资料,方便有需要的朋友。今天的分享到此结束~~~
Liu Y , P Siejka-Zielińska, Velikova G , et al. Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution[J]. Nature Biotechnology, 2019.
软件:https://bitbucket.org/bsblabludwig/astair