结构变异(structural variants,SV)
结构变异类型:
通过pair-ends分析鉴定
---插入(Insertion)
---缺失(Deletion)
---缺失插入(Delegation and Insertion)
---反转(Inversion)
.....
1. breakdancer软件安装
1.1 官网查看,只更新到2013年 breakdancer-1.1.2_2013_03_08.zip
1.2 conda 安装
首先查查看conda中有没有?
conda search breakdancer
conda install -y breakdancer
失败了一次,又一次,
再装一次,就好了,conda的镜像不稳定
2. 找SV
2.1 检测insert
#-q INT Minimum mapping quality [35]
#-s Minimal mean insert size [50]
#-b INTNumber of bins in the histogram [50]
#-g Output mapping flag distribution
mkdir SV && cd SV
bam2cfg.pl -g -h /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam >4AL_requence.cfg
一般来说我只关心报错error,warning什么的根本不管的,所以看一下生成了什么
ls
#4AL_requence.cfg
#4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram
#4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram.png
4AL_requence.cfg:测序平台,样本,读长:150,indel总数量,最小值,最大值,平均indel长度,等
4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram:插入片段的大小
4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram.png生成的图片显示:插入片段的大小(横坐标)及相应的频率(纵坐标)
2.2 检测结构变异
breakdancer-max -q 10 4AL_requence.cfg > 4AL_requence.ctx
#-o STRING operate on a single chromosome [all chromosome]
#-s INT minimum length of a region [7]
#-m INT maximum SV size [1000000000]
#-r INT minimum number of read pairs required to establish a connection -q INTminimum mapping quality
#输出文件格式:
#Chr1 Pos1 Orientation1 Chr2 Pos2 Orientation2 Type Size Score num_Reads num_Reads_lib 4AL_reseq.sorted.unique.markdup.add.bam
#chr1A_part1 3363 28+25- chr1A_part1 3475 28+25- ITX -248 99 22 /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam|22 NA
#chr1A_part1 26809 6+3- chr1A_part1 26916 6+3- ITX -266 64 3 /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam|3 NA
1-3列和4-6列被用来指定两个SV断点的坐标。
一列为染色体chr,一列为位置pos,一列为方向orientation,正负号代表reads比对到anchoring区域的方向,数字代表比对到这个位置的reads数目。
第7列表示SV的类型,
分别有:DEL (deletions), INS (insertion), INV (inversion), ITX (intra-chromosomal translocation,异位发生在同一条染色体内), CTX (inter-chromosomal translocation,易位发生在两条同源或非同源染色体之间), and Unknown.
第8列表示SV的大小,可以忽略正负号的意义,对染色体间易位无用。
第9列可信度得分。
第10列支持该SV的reads数目。
第11列,library中支持该SV的reads数目
第12列run parameter
第七列为不同的SV类型,统计各种类型有多少,并分别输出到不同的txt中。
cat 4AL_requence.cfg |grep 'DEL' >4AL_DEL.txt
cat 4AL_requence.cfg |grep 'INV' >4AL_INV.txt
cat 4AL_requence.cfg |grep 'ITX' >4AL_ITX.txt
cat 4AL_requence.cfg |grep 'CTX' >4AL_CTX.txt