文章由Heng Li出品,发布在Bioinformatics,‘compleasm: a faster and more accurate reimplementation of BUSCO’。该工具比BUSCO评估的结果更为准确。
具体可以查看:https://github.com/huangnengCSU/compleasm
1. 安装
有很多种安装方法,可以快速使用conda进行安装
conda create -n <your_env_name> -c conda-forge -c bioconda compleasm
2. 基本参数
compleasm
usage: compleasm [-h] [-v] {download,list,protein,miniprot,analyze,run} ...
Compleasm
positional arguments:
{download,list,protein,miniprot,analyze,run}
Compleasm modules help
download Download specified BUSCO lineages
list List local or remote BUSCO lineages
protein Evaluate the completeness of provided protein
sequences
miniprot Run miniprot alignment
analyze Evaluate genome completeness from provided miniprot
alignment
run Run compleasm including miniprot alignment and
completeness evaluation
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
主要有上面几个模块,其中
- run,可以输入基因组文件,进行基因组评估;
- download, 下载数据库使用;
- list, 列出当前的数据库;
- protein,输入pep的质量;
- miniprot,进行miniprot 比对;
- analyze, 输入pep比对后,可以进行分析;
3. 基本操作
可以自己下载对应的库,从这里https://busco-data.ezlab.org/v5/data/lineages/下载对应数据库,比如本次我下载embryophyta
mkdir database && cd database
wget https://busco-data.ezlab.org/v5/data/lineages/embryophyta_odb10.2024-01-08.tar.gz
tar -zxf *.gz
对基因组数据进行评估:
ref=test.fa
compleasm run -t 10 -l embryophyta \
-L */database -a $ref -o ${ref}.out
# 基本参数:
- t, 线程数
- a,ref文件
- o, 输出;
- l, 库名称;
- L,本地库路径;
--specified_contigs , 指定congtigs进行评估
同时可以对protein进行评估
compleasm protein -p pep.fa -o pep.fa.out -l embryophyta -L */database -t 10
所有结果均位于输入目录下 summary.txt
## lineage: embryophyta_odb10
S:97.40%, 1572
D:1.80%, 29
F:0.12%, 2
I:0.00%, 0
M:0.68%, 11
N:1614
确实比利用BUSCO的值要高一些,具体的可以查看文章。