格式
当我们把测序reads比对到参考基因组后,能够得到sam/bam文件。bam/bed格式的文件主要是储存了reads到底比对到参考基因组的区域信息,而wig、bigWig和bedgraph不同,它们储存的是参考基因组的各个区域的覆盖度,测序深度信息,并且这些文件可以直接在UCSC的Genome Browser工具里面进行可视化。wig和bigWig文件的优势在于可以体现出数据大小的变化和高低,例如组蛋白修饰的峰值等,一般使用MACS检测peak后可以产生wig格式的文件。
Wig的数据包括track line和data line,track line 定义了track的属性,比如track type=wiggle_0,指定track为Wig track。data line 主要由两部分格式组成,variableStep format和fixedStep format。variableStep format以一个声明开始,明确了染色体的序号,跨度(span)。后面跟两列数据,染色体开始的碱基位置,数据的值value(可以理解为覆盖度)。span参数可以将含有相同value的连续碱基包含在一起,使数据更加简洁。第二部分为fixedStep format, 由声明和单列数据组成。声明部分和variableStep format中各变量的意义一样。wig中的value值可以是整数,实数,正数或者负数。只有指定的位置有value值,没有制定的位置则没有value,且不会在UCSU Genome Browser中作出图。
关于wig格式文件的解读:如图,variableStep format span=150,包含的第一行数据“49304701 10.0”表示49304701-49304851有相同的value,为10.0,随后同理;第二部分fixeStep format表示第19号染色体493077401-493077600,493077701-493077900,493078001-493078200三个区域的value值分别为1000、900和800。
BigWig格式是wig格式文件的二进制压缩版本,用于密集连续的数据,并在基因组浏览器中进行可视化,是UCSC推荐的一种格式。但是wig格式要求数据必须是连续的并且由大小相等的元素组成,如果数据是稀疏或包含大小不同的元素时,则可以采用edGraph格式储存数据。BedGraph 的trace type和Wig文件很像,不过后面的数据和bed文件很类似,包含染色体号、起始位置、终止位置以及value。
处理
USUC提供跨平台的系列工具对这三种文件格式进行相互转换与处理。常用工具包括:WigTobigWig、bigWigToWig、bigWigToBedGraph、bigWigSummary、bigWigAverageOverBed、bigWigInfo等。