1、概述
BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示
2、格式说明
genome features: 功能元素(gene), 遗传多态性 (SNPs, INDELs, or structural variants), 已经由测序或者其他方法得到的注释信息,也可以是自定义的一些特征信息。
genome features的基本信息: 染色体或者scaffold的位置, 起始位置,终止位置,哪条链,feature的name
Overlapping / intersecting features: 两个genome features的区域至少有一个bp的共同片段
BED和GFF文件的一个差异:BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。
3、使用方法
准备两个测试文件,
cpg.bed,其内容为
chr1 20 70 CPG_1
chr1 100 120 CPG_2
chr1 150 250 CPG_3
exon.bed,其内容为
chr1 10 40 exon_1
chr1 50 60 exon_2
chr1 130 180 exon_3
chr1 200 280 exon_4
使用默认参数,求这个文件的overlap,运行
bedtools intersect -a cpg.bed -b exon.bed
结果为
chr1 20 40 CPG_1
chr1 50 60 CPG_1
chr1 150 180 CPG_3
chr1 200 250 CPG_3
可以看出,默认情况下只输出A中overlap的区域
添加-wa 参数, 再次运行
bedtools intersect -a cpg.bed -b exon.bed -wa
结果为:
chr1 20 70 CPG_1
chr1 20 70 CPG_1
chr1 150 250 CPG_3
chr1 150 250 CPG_3
可以看出,加上-wa 参数后,只要A中的这段区域与B中区域有交集,就输出,而且overlap几次,就输出几次
添加-wb 参数,运行
bedtools intersect -a cpg.bed -b exon.bed -wb
结果为:
chr1 20 40 CPG_1 chr1 10 40 exon_1
chr1 50 60 CPG_1 chr1 50 60 exon_2
chr1 150 180 CPG_3 chr1 130 180 exon_3
chr1 200 250 CPG_3 chr1 200 280 exon_4
可以看出,加上-wb参数后,除了输出A中的overlap区域外,还会输出B中的整个区间
加上-wa, -wb 参数,再次运行
1
bedtools intersect -a cpg.bed -b exon.bed -wa -wb
结果为:
1
2
3
4chr1 20 70 CPG_1 chr1 10 40 exon_1
chr1 20 70 CPG_1 chr1 50 60 exon_2
chr1 150 250 CPG_3 chr1 130 180 exon_3
chr1 150 250 CPG_3 chr1 200 280 exon_4
可以看出,同时添加-wa和-wb参数会将overlap 区域成对输出
-c参数,统计A中每个区域与Boverlap的次数
bedtools intersect -a cpg.bed -b exon.bed -c
结果为:
chr1 20 70 CPG_1 2
chr1 100 120 CPG_2 0
chr1 150 250 CPG_3 2
-v参数:只输出A中没有与Boverlap的区域
bedtools intersect -a cpg.bed -b exon.bed -v
结果为:
chr1 100 120 CPG_2
可以看出,只要只要与B有overlap就不输出。