如何获取质粒上的特征元件

在使用SnapGene进行质粒构建、引物设计、片段扩增时候,你是不是也遇到如下令人头疼的问题:

  • 序列导入SnapGene后,软件自动识别的元件Common Features有限,许多复制子ori、启动子promoter、编码蛋白conding sequence等都无法识别;
  • 在质粒设计时候,总有顾忌,到底哪些序列是"可有可无的"?如果保留这些无标注序列会导致质粒过大,删除又担心影响性能?🤦
  • 同样的注释Feature,但是用SnapGene进行copy-Find时候,总是比对不上;

有感于此,为了解决这些痛点,通过不懈地探索,终于找到一些替代方案,现整理如下,以飨读者!

1. 更新SnapGene版本

SnapGene自动识别Feature原理

SnapGene拥有用于检测常见特征(common features)的算法。这种算法实现了SnapGene能够注释原始质粒序列并显示经常使用的基因和控制元件。开发这一工具需要创建一个共同特征的数据库,并设计即使在不完全匹配的情况下也能识别特征的规则。
软件算法规定,当识别序列与参考序列一致性大于96%以上,被标注为特征序列。但这样的算法也有局限性。例如,如果序列差异超过阈值( 96% ),它可能会错过某个共同特征。可以通过向数据库添加更多变体来解决这个问题。另一个限制是,由于容忍不匹配算法可能会标注不准确的特征。最好的例子是荧光蛋白,它们通常有密切相关的版本,具有不同的特性。

查询这些Features方法如下:
"Features" > "Browse Common Features",弹出如下界面:

  • image.png

当然,也可以选定在选定手动标注的Feature后,选择 "Add Common Features",将其添加到特征列表中,这样手动更新数据库,以后再次导入类似元件就会自动标注了。

截至目前,snapgene版本已经更新到了SnapGene Version 7.2.1,升级的版本提供更新的"Common Feature Datebase",能够识别更多变种的质粒元件。相信大多数人仍旧使用的是旧版本的,如我的是GSL Biotech SnapGene 3.2.1 Win和SnapGene602_win,更新意味着付费,要知道新版本的学术版每年¥ 2,677,这是我等学术民工难以负担得起的。

2. 在线质粒元件数据库比对

为了更好的数据演示,这里以pAD123为例(单击连接下载sequence)

该质粒为E. coli-Bacillus穿梭质粒,含有chloramphenicol resistance、Amp抗性,promoter-less gfpmut3

导入SnapGene (snapgene_3.2.1_win),自动注释的结果如下:


image.png

可以看到,很多信息没有注释出来,包括启动子、编码蛋白的序列等等……

2.1 pLannotate

推荐指数:⭐⭐⭐⭐⭐

image.png

文献支撑:
McGuffie MJ, Barrick JE. pLannotate: engineered plasmid annotation. Nucleic Acids Res. 2021 Jul 2;49(W1):W516-W522. doi: 10.1093/nar/gkab374. PMID: 34019636; PMCID: PMC8262757.

工作原理

pLannotate使用BLAST、DIAMOND和Infernal软件,将提交的质粒序列与几个数据库进行比对。主要为:SnapGene提供的一组特征匹配的核苷酸,并识别与fpbase和Swiss-Prot数据库中的条目匹配的翻译核苷酸。Rfam用于检测非编码RNA。
如果与数据库有≥95%的序列同一性匹配则预测为特征Feature。其中,Swiss-Prot具有更宽容的最小序列同一性,要求≥50%的匹配,并根据其各自的注释分数施加惩罚。具有显著重叠的匹配将被过滤,以便仅显示整体特征的最佳共识集。

序列导入pLannotate后,分析结果如下:
可以看到,pLannotate注释到了更多序列元件,这样你还敢乱删哪些看似可有可无的序列吗!

pLannotate分析结果图谱

此外,还罗列出每个Features的一致性、匹配长度、特征描述信息

Features

最后,只需将_pLann.gbk格式的注释文件下载下来,用snapgene打开。所有注释的信息已经自动导入进来。

image.png

题外话,肯定有人会有疑问,难道真的就不能乱动吗?当然也不绝对是。譬如有些研究者有意无意的保留一些不必要的基因片段,那就要仔细甄别,在合理的情况下给它做个"清洗",这可能是程序员一类人的职业习惯吧。作为案例分析,我将在其他文中做演示。


2.2 NovoBuilder

推荐指数:⭐⭐⭐⭐
简介:NovoBuilder是一款免费的,集质粒序列注释、质粒设计、质粒构建报价、密码子优化于一体的分子生物学在线工具,由上海纽普生物(NovoPro)搭建。
导入pAD123序列后,自动注释结果如下:

image.png

显然,注释的并不算多全面,充其量够用而已。之所以推荐,是因为它还有完备的Common Elements数据库。当我们想要调用某一元件时候,直接copy并导入SnapGene即可,哪还需要再一个个去找图谱、BLAST,甚至找笔记呢?
深入研究发现NovoPro真是个宝藏网页,涵盖了分子生物学众多软件,有点像ExPASy,感兴趣的可以探索一下:https://www.novopro.cn/tools/

image.png

2.3 PlasMapper 3.0

推荐指数:⭐⭐⭐
简介:PlasMapper 3.0是一个网络服务器,允许用户生成、编辑、注释和交互式可视化发表级别的质粒图谱。PlasMapper 3.0提供了对新的和扩展的质粒数据库的访问,用户可以从中挑选各种各样的质粒。此外,它还提供了自动化密码子优化和BLAST序列比对的选项。PlasMapper 3.0支持多种输入格式,包括raw序列、FASTA文件和其自己的PlasMapper JSON格式。
文献支撑:
Dong X, Stothard P, Forsythe IJ, Wishart DS. PlasMapper: a web server for drawing and auto-annotating plasmid maps. Nucleic Acids Res. 2004 Jul 1;32(Web Server issue):W660-4. doi: 10.1093/nar/gkh410. PMID: 15215471; PMCID: PMC441548.

导入pAD123序列后,可以看到如下质粒图谱。总体来说,注释的元件偏少,与SnapGene相差不大。令人不适的是,不能区分蛋白转录的方向,如这里的Amp_Promoter竟然再Ampicillin的下游。

PlasMapper结果图

在界面的左边,提供一些特征的信息,如特征名称,类型、起始/终止位点及方向等,值得推荐的是可以自动注释一些常用载体克隆的引物信息,无需再单独设计,非常便捷。
image.png


2.4 NCBI

推荐指数:⭐⭐
在没有找到上述解决办法之前,我是通过BLAST比对的方法来尽可能的找到一些注释信息的,大致步骤如下:
将序列通过BLAST比对,在数据库中比对到相似的序列信息。虽然没有完全比对跟query序列完全一致的,但是仍然可以作为参考,查看共有的模块信息。


image.png

在线查看元件:
点击"Graphics",鼠标单击相应的注释模块就可看到相关的信息


image.png

image.png

然后,选择"Send to" > "Complete Record"> "File"> "GenBank"
下载的文件后导入SnapGene中,再在两个质粒图谱之间进行切换并标注为注释的元件结构(Time consuming and laboring)

  • image.png

2.5 SeqBuilder pro

推荐指数:⭐⭐
DNASTAR是Lasergene Molecular Biology旗下完整的序列分析软件,用于分子生物学研究、蛋白质分析、基因组学和转录组学研究。SeqBuilder Pro是其下属的一个子软件工具。
DNASTAR软件及功能介绍免费教程
视频课程:https://www.sciencesoftware.com.cn/web/PaidTraining.html
注册即可观看,免费。

由于质粒设计的软件众多,笔者并没有一一测试,仅罗列出一些,感兴趣者可以自己测试:

  1. PlasmidTools
  2. plasmapR:绘制质粒图谱R包
  3. UGENE
  4. VectorBuilder
  5. PlasMapper: a web server for drawing and auto-annotating plasmid maps

整个序列获取及元件注释流程如下:

  • image.png

参考文献:

  1. 最简单的质粒图谱查询方法详解
  2. 科研工具 | 生物医学、药物研发常用数据库及网站
  3. A list of plasmid prediction tools
  4. vecter builder
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容