「BioNano系列」光学图谱混合组装应该怎么做？

评估从头组装结果

Bionano从头组装出光学图谱CMAP可以和参考序列的CMAP进行比对，通过Access上可视化检查参考基因组的组装质量，比较两者间的不同。

这里所用的CMAP图谱来自于一篇发表在NC的拟南芥的基因组文章(原本计划用他们的bnx文件介绍从头组装，但是通讯作者根本不搭理我)，

光学图谱的下载方式为:

wget https://submit.ncbi.nlm.nih.gov/ft/byid/w4jcevedkbs-mac-74_bng_contigs2017.cmap

我们可以根据「三代组装」使用minimap+miniasm对nanopore进行基因组组装组装出对应的物理图谱，

分析代码如下:

#模拟酶切
perl /opt/biosoft/Solve3.3_10252018/Pipeline/10252018/fa2cmap_multi_color.pl -i R05C0144.fa -e BspQI 1
# 两个图谱比较
python /opt/biosoft/Solve3.3_10252018/Pipeline/10252018/runCharacterize.py \
    -t /opt/biosoft/Solve3.3_10252018/RefAligner/7915.7989rel/RefAligner \
    -q kbs-mac-74_bng_contigs2017.cmap -r R05C0144_BSPQI_0kb_0labels.cmap \
    -p /opt/biosoft/Solve3.3_10252018/Pipeline/10252018 \
    -a /opt/biosoft/Solve3.3_10252018/RefAligner/7915.7989rel/optArguments_nonhaplotype_noES_irys.xml \
    -n 10

运行之后会在当前目录下生成一个"alignref"文件夹，将其中的"q.cmap","r.cmap",".xmap"下载到本地，上传到access中进行可视化

组装肉眼评估

上图中，箭头指示的部分可能就是光学图谱能用于锚定其他contig的部分，这就是下一节光学图谱辅助组装的原理。

光学图谱辅助组装

NGM(Next-Generation Mapping) Scaffold 流程:

为序列数据产生 in silico 图谱
将序列和Bionano基因组图谱进行比较，找到两者之间的冲突并尝试解决
将不冲突的图谱合并成 hybrid scafold
在序列图谱和hybrid scaffold之间形成联配
得到scaffold的AGP和FASTA文件

整个流程和Bionano Access完美整合，为使用者提供了方便的操作界面，用于对scafflod结果进行可视化。流程的脚本在"/opt/biosoft/Solve3.3_10252018/HybridScaffold/10252018"

单酶系统

流程控制脚本为: Solve3.3_版本日期HybridScaffold/版本日期/hybridScaffold.pl, 他接受输入文件，输出运行过程中的信息，产生输出文件，最后得到结果描述。

有四个必须文件: FASTA格式组装结果，CMAP格式的Bionano 基因组图谱组装，XML格式的配置文件， RefAligner.

perl hybridScaffold.pl 
    -n FASTA格式序列 (必须)
    -b BIonano CMAP文件 (必须)
    -c  Merge 的XML配置文件 (必须)
    -r RefAligner运行工具路径 (必须)
    -o 输出文件夹 (必须)
    -B conflict filter level genome maps; 1,2 or3， 决定如何处理冲突，1表示不过滤，2表示在冲突处分割contig，3表示删除冲突的contig，没有-M时一定要加入
    -N conflict filter level for sequences; 1,2 or 3， 决定如何处理冲突，1表示不过滤，2表示在冲突处分割contig，3表示删除冲突的contig，没有-M时一定要加入
    -f 是否覆盖之前的输出
    -x 分别进行hybrid scaffold 和 genome map的相互比对
    -y 为输入的genome maps生成嵌合质量分
    -M 输入手工解决过冲突的文件
    -m: 如果使用了-x或-y参数，则需要输入Bionano molecules的BNX文件
    -p 从头组装流程的文件路径，如果使用了-x或, -y 选项，就需要加入这一项
    -q 从头组装流程的XML配置文件，如果使用了-x或, -y 选项，就需要加入这一项
    -e 从头组装时的噪音参数， .errbin或err文件
    -v 输出流程版本信息

明确一点: -c 要求的XML文件真的不是无脑用，需要修改其中fasta2cmap的enzyme部分

实际运行案例:

cp /opt/biosoft/Solve3.3_10252018/HybridScaffold/10252018/hybridScaffold_config.xml .
# 用vim修改hybridScaffold_config.xml中的enzyme
perl /opt/biosoft/Solve3.3_10252018/HybridScaffold/10252018/hybridScaffold.pl \
    -n R05C0144.fa \
    -b kbs-mac-74_bng_contigs2017.cmap \
    -c hybridScaffold_config.xml \
    -r /opt/biosoft/Solve3.3_10252018/RefAligner/7915.7989rel/RefAligner \
    -o R05C0144 \
    -B 2 -N 2 \
    -f

运行过程中会输出scaffold N50等一些参数。N50仅仅提升了1.1M，估计是作者bionano数据不够多。

组装的FASTA在"R05C0144/agp_fasta"文件下，而"R05C0144/hybridScaffold_archive.tar.gz"可以上传到Access查看组装效果, 下图就是一个典型的混合组装

典型的混合组装结果

当然具体分为哪几步，以及每一步调用的脚本如下所示:

第一步：将FASTA转成CMAP格式,

Step 1

用到一个perl脚本, fa2cmap_multi_color.pl, 通过对基因组序列进行模式搜索寻找可能的酶切位点，默认输出在"fa2cmap"文件夹下

第二步: 识别并解决冲突。

Step 2

冲突可能来自于真实的等位基因，或者时组装错误，最终的结果就是在联配中出现过多无法比对上的标记(labels). Hybrid Scaffold流程会先用RefAligner将第一步得到的cmp去跟Bionano基因组图谱比，然后用AssignAlignType.pl识别冲突交界处。输入文件为RefAligner运行后得到的XMAP和CMAP文件，以及原始序列和原始Bionano基因组图谱。统计每个联配中比对和未必对标记数，根据XML配置文件中"assignAlignType.max_overhang" 参数设置最大可以容忍的无法联配的标记数。最后会输出"assginAlignType.xmap"(列出冲突位置),以及"assignAlignType_r.cmap"(无冲突序列), "assignAlignType_q.cmap"(无冲突图谱)。更重要的是"conflicts.txt"，记录着每个可能的位置。

之后流程用cut_conflicts.pl解决不一致的位置，输出"conflicts_cut_status.txt", 可以手工编辑，有监督的进行处理。

第三步: 合并两者的组装结果，形成Hybrid scaffold

Step 3

这一步用MergeNGS_BN.pl脚本完成，它会调用RefAligner进行迭代两两配对合并，输入文件是下面的其中一个

原始输入
冲突解决后的组装(cut_conflicts.pl输出结果)
没有冲突的组装(AssignAlignType.pl的结果)

每一种输入都是一种选项，我们可以尝试不同的输入，最后进行比较。

第四步: 将序列图图谱和基因组图谱比对到hybrid scaffold

Step 4

第五步: 生成hybrid scaffold表征的AGP和FASTA文件

Step 5

一些注意事项：

Bionano很难处理Hi-C数据引起的基因组中朝向/排序的错误。所以先Bionano混合组装，然后才是Hi-C
覆盖度: 至少50X，NLRS随着覆盖度提高并不会有明显增强图谱连续性，DLS(例如DLE0-1) 100X以上的覆盖度能够明显提高某些植物和东西的图谱连续性。
当前的Hybrid Scaffold 流程无法很好处理单倍体信息，所以上一步的从头组装一定要是nonhaplotype.

最后编辑于：2020.06.18 09:08:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

「BioNano系列」光学图谱混合组装应该怎么做？

评估从头组装结果

光学图谱辅助组装

单酶系统

推荐阅读更多精彩内容