「BioNano系列」那些Bionano未覆盖的区域是什么?

「Bionano系列」光学图谱混合组装应该怎么做?这篇文章中,我展示了下面这张图。

未覆盖区域

和之前的图不同的是,我加了几个箭头,这些箭头所指向的区域的特征就是,这些区域并未被Bionano所覆盖。如果不去思考这些区域到底是什么,直接进行混合组装,那么这其实对最后结果的不负责任。因为这完全可能是组装软件没有正确的处理错误的overlap,将不应该连接的序列连接在一起(尽管这个概率不高)。

我的直观猜测就是,这些区域应该是重复序列区域。毕竟Bionano标记技术依赖于酶识别特定位点进行酶切加上荧光标记,重复序列要么会因酶切密度太高,相机的分辨率达不到,而识别失败,要么是酶切位点过少,信号太弱。

那么我应该如何验证这个猜想?通过几天的文献翻阅和尝试,我用重复序列数量和基因数量的相对比值进行衡量。

命令行的代码如下(没有考虑文件的相对位置)

# 利用拟南芥的原本CDS进行注释
gmap_build -D index -d R05C0144 ../R05C0144.fa &
gmap -t 20 -D index -d R05C0144 -f gff3_gene ../Athaliana_cds.fa > cds_gene.gff3 2> log.txt &
# 重复序列注释
RepeatMasker -e ncbi -species arabidopsis -pa 30 -gff -dir . ../R05C0144.fa &
# GFF转成BED
awk 'BEGIN{OFS="\t"} {print $1,$4,$5}' ../repeat_annotation/R05C0144.fa.out.gff > repeat.bed
grep -w 'gene' ../gene_annotation/cds_gene.gff3| awk 'BEGIN{OFS="\t"} {print $1,$4,$5}' | bedtools sort -i - > gene.bed
# 统计
bedtools makewindows -w 100000 -g ../R05C0144.txt > windows_100k.bed
bedtools coverage -a windows_100k.bed -b repeat.bed > repeat_stat.bed
bedtools coverage -a windows_100k.bed -b gene.bed > gene_stat.bed

R代码如下

gene_df <- read.table("R05C0144/feature_stat/gene_stat.bed",
                        sep="\t", stringsAsFactors = F)
repeat_df <- read.table("R05C0144/feature_stat/repeat_stat.bed",
                      sep="\t", stringsAsFactors = F)

options(scipen=999) 
contig <- "contig2"

repeat_ctg <- repeat_df[repeat_df$V1 == contig,]
gene_ctg <- gene_df[gene_df$V1 == contig,]

combine_df <- data.frame(pos=(repeat_ctg$V2 + repeat_ctg$V3) / 2,
                         repeat_num=repeat_ctg$V4,
                         gene_num=gene_ctg$V4)
combine_df$total = combine_df$repeat_num + combine_df$gene_num

combine_df$gene_ratio <- combine_df$gene_num / combine_df$total * 100

combine_df$repeat_ratio <- combine_df$repeat_num / combine_df$total * 100


plot(combine_df$pos, combine_df$gene_ratio, 
     type="l", 
     ylim=c(0,100),
     xlab="position",
     ylab="percent",
     col="blue")
lines(combine_df$pos, combine_df$repeat_ratio, col="red")
abline(v=7.85*1e6)

我检查了一些区间,的确是重复序列比例高于基因比例,当然还有一些区间不是。说明重复序列并不是光学图谱未覆盖的主要原因。

相对比例
Bionano图谱比对

当然对于拟南芥这种有着高质量基因组的物种而言,我们还可以进行共线性分析。不过对于这些N50在4M左右,而且低杂合的基因组,其实都不需要太操心这种错误。

我这里也就验证了一种可能性,后续还得检查了一下其他原因,说不定仅仅是光学图谱的深度不够而已。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 氨基酸是蛋白质的基本结构单位,参与合成蛋白质的氨基酸有20种,可作为原料在核糖体工厂通过肽键连接形成多肽链,都有密...
    官敏慧阅读 5,450评论 0 7
  • 8种特殊建库测序 8种特殊建库测序 1. RNA-seq 2. 外显子测序 3. small RNA-seq 4....
    wangchuang2017阅读 13,090评论 2 92
  • 不用等到我们老 趁我们现在还是陌生人 不要周五 就今晚 你我繁星下 我用啤酒就着你的情诗 点燃你的浴火 将来告诉孩...
    仗爱欺人阅读 320评论 0 0
  • 1.身体健康 已经恢复正常,还是稍微有一点咽喉炎。 2.财富 家里出了点事情,让我明确知道存钱和有赚钱能力的重要性...
    你的小鬼啊阅读 175评论 0 0
  • 大概是,相识即是缘分 我才对你热情 如果你要来 就在十一月吧 在十月和十二月之间的月份 立冬与小雪的见证 米开朗基...
    湖蓝和月白阅读 354评论 0 1