「JCVI」如何筛选得到最优blast比对结果?

JCVI,包含了太多的功能,但是我感觉好像又没有一个特别好的说明文档(小声bb,感谢唐老师的开发的好用工具)

blast比对

未过滤的blast比对结果,所使用参数是:-outfmt 6 -max_hsps 1 -max_target_seqs 500 -num_threads 16 -evalue 1e-5 -perc_identity 70 -task megablast

Note:-max_target_seqs 500为默认参数,代表query序列最多可以保留500条不同ref序列的比对结果。

查看哪些query序列有多个比对结果

这个标题是句废话,因为我已经设置了-max_target_seqs 500

但是由于我构建的数据库只有1800左右的序列,输入序列有1700条,因此每一条query序列也不太可能出现500条这么多的结果。

# 输出有多个比对结果query序列ID
awk '{print $1}' raw.blast.txt | sort | uniq -d

现在想要得到最优的blast比对结果,我应该怎么操作?

  • 自行编写脚本,根据identity、e-value、score、pairing length等参数(×)
  • 使用JCVI(√)

过滤blast比对结果

使用如下命令,就可以得到最优blast比对结果,

python -m jcvi.formats.blast best -n 1 raw.blast.txt

JCVI过滤的标准是什么?

(1)解读源码

Produce a new blast file and filter based on:
- score: >= cutoff
- pctid: >= cutoff
- hitlen: >= cutoff
- evalue: <= cutoff
- ids: valid ids

也就是说,是基于1)比对得分、2)identity、3)联配长度、4)e-value以及自行定义的5)序列ID来得到过滤后的blast文件的。

(2)用几条序列测试一下

根据源码,已经可以得到JCVI是根据1)

那当e-value和比对得分以及比对上的长度都是相等的时候?JCVI是怎么提取对应结果的?

运气很好的是,我试了上一个部分输出的几个有多个比对结果的query ID,就找到了可以用于解析JCVI如何过滤blast比对结果的query序列。

将对应query序列的结果grep出来,保存下列文件,命名为query1.blast.txt

query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-04-E6 87.796 549 64 1 353 898 276 824 0.0 640
query1 Os01t0624000-02-E10 87.796 549 64 1 353 898 292 840 0.0 640

运行JCVI,python -m jcvi.formats.blast best -n 1 query1.blast.txt(结果文件为query1.blast.txt.best

query1  Os01t0624000-01-E10     87.80   549     64      1       353     898     219     767     0       640

然后我的疑问出现了:为什么3条序列e-value和Score都一样?为什么JCVI选择了第一条?

Note:上述3种比对结果的联配长度是一样的,均为548

  • 与比对到参考序列上的起始位置有关,即选择起始位置最前的比对结果
  • 与参考序列的ID有关

测试1:起始位置

文件修改为如下,保存为test1.blast.txt

query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 192 740 0.0 640

运行JCVI,python -m jcvi.formats.blast best -n 1 test1.blast.txt,查看该命令的结果文件:

query1  Os01t0624000-01-E10     87.80   549     64      1       353     898     192     740     0       640

需要注意的是,终端输出的命令为:sort -k1,1 -k12,12gr test2.blast.txt -o test1.blast.txt

再使用JCVI之前,就已经进行了输入文件的排序。

排序后文件的第一行,对应了最终的过滤文件 —— 也就是说<font color='yellow'>后续等参数的过滤都是基于排序后的文件</font>。

query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 192 740 0.0 640
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640

测试2:序列ID

文件修改为如下格,保存为test2.blast.txt

query1 Os01t0624000-04-E6 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640

使用JCVI过滤得到的重排后的文件以及结果如下,

# sorted file
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-04-E6 87.796 549 64 1 353 898 219 767 0.0 640
# filter result
query1  Os01t0624000-01-E10     87.80   549     64      1       353     898     219     767     0       640

题外话

办公时间段摸鱼。
JCVI这个名字,到底怎么取出来的?是唐老师自己取的吗?
打开bing一搜,最上面一条的搜索结果引起了我的注意,



这名字,我是不是在哪里看到过???

打开bilibili —— 打开鬼谷老师的频道 —— 点开【科学八卦史】他以一人之力碾压全球科学家,让资本沦为自己的提款机,却这期节目。

哇,Amazing

原来是发明鸟枪测序法的爷 —— John Craig Venter

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容

  • 举个栗子🌰: 最近对拟南芥中的一个叫做CBF的基因非常感兴趣,现在我想看看这个CBF基因在一个新测序的物种Am基因...
    Ruta阅读 13,693评论 1 19
  • Blast,全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具...
    晓佥阅读 14,871评论 1 26
  • 这次使用的是 biopython 中解析 blast 结果的功能,随着 blast 版本的不断更新, blast的...
    SunPython阅读 4,331评论 0 5
  • 基本概念 相似性(similarity) 一种很直接的数量关系,比如部分相同或相似的百分比或其他一些合适的度量 如...
    生信师姐阅读 18,019评论 0 32
  • BLAST的大名对于做生物的同学可以说是如雷贯耳,哪怕非生信的同学也或多或少接触过这个东西。我们通常会使用ncbi...
    鹿无为阅读 7,921评论 0 5