BUSCO评估基因组组装和完整性

BUSCO是Benchmarking Universal Single-Copy Orthologs(通用单拷贝同源基因基准)的缩写,基于基因进化(有参比对)评估基因组组装和注释完整性的开源python软件。

文献:
文章:BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. 2015
引用:4695
BOOK:BUSCO: Assessing Genome Assembly and Annotation Completeness. Methods in Molecular Biology 2019

摘要:
Motivation: Genomics has revolutionized biological research, but quality assessment of the resulting assembled sequences is complicated and remains mostly limited to technical measures like N50.
Results: We propose a measure for quantitative assessment of genome assembly and annotation completeness based on evolutionarily informed expectations of gene content. We implemented the assessment procedure in open-source software, with sets of Benchmarking Universal Single-Copy Orthologs, named BUSCO.
基因组组装评估方法少,BUSCO开源且好用。

方法:
官网:https://busco.ezlab.org/
MANUAL: https://busco.ezlab.org/busco_userguide.html

conda安装:
conda:https://anaconda.org/bioconda/busco
选一即可,可能是v4.1.2

conda install -c bioconda busco
conda install -c bioconda/label/broken busco
conda install -c bioconda/label/cf201901 busco 

bioconda安装最新版v5.1.2,see manual

# 没有镜像的话,添加镜像
conda config --show 
conda config --add channels conda-forge
# conda安装
conda create -n busco
conda activate busco
conda install -c bioconda -c conda-forge busco=5.1.2
busco --help
busco --version
# BUSCO 5.1.2

数据库:
更多老哥下了植物的参考基因组,链接似乎不好用了?

# 植物的BUSCO的数据库
wget -c https://busco.ezlab.org/datasets/embryophyta_odb9.tar.gz

orthodb: https://www.orthodb.org/?page=filelist 里似乎有很多数据?

MANAUAL中提供了lineage数据源:
https://busco-data.ezlab.org/v5/data/,发现:

是V5最新版的数据库,没错了

https://busco-data.ezlab.org/v5/data/lineages/,发现:

2021本月最新版,各个物种任意选择,下载bacteria_odb10,并查看:

wget -c https://busco-data.ezlab.org/v5/data/lineages/bacteria_odb10.2020-03-06.tar.gz
tar -zxvf bacteria_odb10.2020-03-06.tar.gz
cd bacteria_odb10

BUSCO使用:

manual里的Automated lineage selection模式

busco -m MODE -i INPUT -o OUTPUT --auto-lineage
busco -m MODE -i INPUT -o OUTPUT --auto-lineage-prok
# or ignoring eukaryotes to save runtime, if compatible with your experimental goal.
busco -m MODE -i INPUT -o OUTPUT --auto-lineage-euk
# or ignoring non-eukaryotes to save runtime, if compatible with your experimental goal.

manual推荐的靶向lineage模式

db_busco="/database/BUSCO/bacteria_odb10"
busco --in AF04-12.fna \
--lineage_dataset $db_busco \
--out ./output/ \
-m genome --offline

结果报错:

顾名思义,不能有slash,需要更改配置文件,安全起见别这样做。去掉slash即可正常。对于批处理,只需不断进出新建的文件夹即可。

busco --in AF04-12.fna \
--lineage_dataset $db_busco \
--out output \
-m genome --offline

结果:

full_table.tsv

# BUSCO version is: 5.1.2
# The lineage dataset is: bacteria_odb10 (Creation date: 2020-03-06, number of genomes: 4085, number of BUSCOs: 124)
# Busco id      Status  Sequence        Gene Start      Gene End        Strand  ScoreLength   OrthoDB url     Description
4421at2 Complete        AF04-12.Scaf40_36       46725   51011   +       1675.3  1205 https://www.orthodb.org/v10?query=4421at2        DNA-directed RNA polymerase subunit beta'
9601at2 Complete        AF04-12.Scaf40_35       42874   46686   +       1169.7  804  https://www.orthodb.org/v10?query=9601at2        DNA-directed RNA polymerase subunit beta
26038at2        Complete        AF04-12.Scaf8_42        54773   58477   +       212.5371      https://www.orthodb.org/v10?query=26038at2      phosphoribosylformylglycinamidine synthase
91428at2        Complete        AF04-12.Scaf45_20       22437   25052   +       540.6530      https://www.orthodb.org/v10?query=91428at2      alanine--tRNA ligase
95696at2        Complete        AF04-12.Scaf4_63        73584   75617   +       714.7504      https://www.orthodb.org/v10?query=95696at2      excinuclease ABC subunit B
143460at2       Complete        AF04-12.Scaf1_51        58613   60415   +       512.5441      https://www.orthodb.org/v10?query=143460at2     GTP-binding protein
182107at2       Complete        AF04-12.Scaf17_16       11979   13760   +       709.2491      https://www.orthodb.org/v10?query=182107at2     elongation factor 4

missing_busco_list.tsv

POG091H008J
POG091H00BL
POG091H00TK
...............这里其实没有,嘎嘎

short_summary.txt

# BUSCO version is: 5.1.2
# The lineage dataset is: bacteria_odb10 (Creation date: 2020-03-06, number of genomes: 4085, number of BUSCOs: 124)
# Summarized benchmarking in BUSCO notation for file /hwfssz5/ST_META/P18Z10200N0423_ZYQ/MiceGutProject/hutongyuan/analysis/platform/test/AF04-12.fna
# BUSCO was run in mode: genome
# Gene predictor used: prodigal

        ***** Results: *****

        C:100.0%[S:97.6%,D:2.4%],F:0.0%,M:0.0%,n:124
        124     Complete BUSCOs (C)
        121     Complete and single-copy BUSCOs (S)
        3       Complete and duplicated BUSCOs (D)
        0       Fragmented BUSCOs (F)
        0       Missing BUSCOs (M)
        124     Total BUSCO groups searched

Dependencies and versions:
        hmmsearch: 3.1
        prodigal: 2.6.3

合并BUSCO结果:

## BUSCO 结果统计
task="illumina"
touch BUSCO/${task}_busco.txt
echo -e "id\tc\ts\td\tf\tm" >> BUSCO/${task}_busco.txt

for i in `cat 76_strain_id.list`;
do
    c=`cat BUSCO/$task/$i/run_bacteria_odb10/short_summary.txt | grep "Complete BUSCOs" | awk '{print $1}'`
    s=`cat BUSCO/$task/$i/run_bacteria_odb10/short_summary.txt | grep "Complete and single-copy BUSCOs" | awk '{print $1}'`
    d=`cat BUSCO/$task/$i/run_bacteria_odb10/short_summary.txt | grep "Complete and duplicated BUSCOs" | awk '{print $1}'`
    f=`cat BUSCO/$task/$i/run_bacteria_odb10/short_summary.txt | grep "Fragmented BUSCOs" | awk '{print $1}'`
    m=`cat BUSCO/$task/$i/run_bacteria_odb10/short_summary.txt | grep "Missing BUSCOs" | awk '{print $1}'`
    echo -e "$i\t$c\t$s\t$d\t$f\t$m" >> BUSCO/${task}_busco.txt
    echo -e "\033[32m $i done... \033[0m"
done

可视化:
这个呢需要某个脚本,官网是这么干的,自己捯饬一下也行,反正我没做了。

cp XX1/short_summary.*.lineage_odb10.XX1.txt BUSCO_summaries/.
cp XX2/short_summary.*.lineage_odb10.XX2.txt BUSCO_summaries/.
cp XX3/short_summary.*.lineage_odb10.XX3.txt BUSCO_summaries/.

python3 scripts/generate_plot.py –wd BUSCO_summaries
python3 scripts/generate_plot.py –wd /full/path/to/my/folder/BUSCO_summaries

更多:
BUSCO - 组装质量评估

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容