起因是有几千个基因,想要和参考基因组进行比较,看看2个菌在基因个数上有什么差异,因此就想到了blast,但是使用blast后,输出的结果非常多,对于不精通python的来说,处理结果就非常令人头痛,因此不得不去查阅,最终找到解决办法,使得输出结果能够仅输出一条最为匹配的,而不是输出一堆。
前面建库有非常多的文章介绍,我这里就不重复了,下面会给出三条命令,自己试试看你个最合适,若是还不合适,你需要特定的参数,最好自己去查阅blast的说明和参数详解,并自己去尝试,虽然看似花时间,但有可能是最快的方法。
一般的用
blastn -query input.cds.fa(输入文件) -db refgenomic(库名) -max_target_seqs 1 -outfmt 6 -num_threads 6 -out out_file(输出文件)
==========================
blastn -query input.cds.fa(输入文件) -db refgenomic(库名) -max_target_seqs 1 -evalue 1e-6 -outfmt 6 -num_threads 6 -out out_file(输出文件)
======================================
我自己文件的
最优解,输出结果是一条一条的,没有冗余
blastn -query input.cds.fa(输入文件) -db refgenomic(库名) -outfmt 6 -max_hsps 1 max_target_seqs 1 -num_threads 6 -out out_file(输出文件)
输出的6的格式 没有表头,在这里提一下
Query_id Subject_id %_identity alignment_length mismatches gap_openings q. start q. end s. start s. end e-value bit_score