最近在搞一个PCR法病原微生物检测产品的引物及探针设计项目,在进行调研初步了解后,发现此项目重难点在于序列数据库构建及模板序列的挖掘。
序列数据库构建主要是因为数据量太大,不好下载;而且一个菌种一般对应多条参考序列,需要整理并选出代表性序列。数据下载上,没有好办法,只能一点点下载。数据整理,去冗余可以考虑只保留完整参考序列,其他的contig都去掉。选代表性序列,可以考虑排列组合计算两两间的相似度,最终选取与其他序列的平均相似度最高的那个作为代表性序列(多序列比对,考虑mummer软件)。
模板序列要求要在菌种/属内保守,在菌种/属间及宿主上特异。物种内保守的区域获取:(1)文献查找;(2)MEME预测motif;(3)滑动窗口法分割代表性序列,然后与物种内进行比对,计算保守性。三者任选其一,可以保证模板序列的保守性。除此之外,还需要考虑特异性:(1)设计出引物对后,将其他物种序列作为参考基因组,利用MFEprimer评价是否能扩出产物;(2)将选出的模板序列与其他物种序列进行比对,计算特异性,选取特异性好的模板序列。
预测比较耗时的是所有物种的代表性序列选取及其汇聚成的总序列文件的比对索引构建。
最后,模板序列对应的引物及探针设计,利用primer3或者其他引物设计软件设计即可。多重引物及探针设计需要保证引物之间没有二聚体,所有探针及其产物间的分子量差值越大越好。