简介
在这个疫情时间,我们来学习如何用生物信息学方法检测病毒,根据系统发育,将该病毒识别为严重急性呼吸系统综合症冠状病毒SARS-CoV的同源,covid-19基因组由大约30k个核苷酸长的单个正链RNA组成。 总体基因组组织与其他冠状病毒相似。 基因组编码所有beta冠状病毒通用的开放阅读框(ORF),包括编码许多酶蛋白,棘突表面糖蛋白(S),小包膜蛋白(E),基质蛋白(M)和核衣壳蛋白(N)以及几种非结构蛋白
获取数据和软件
安装软件,要求python环境3.5以上
linux install datamash parallel
conda update -y blast=2.9.0
conda install -y cd-hit
pip install pyyaml
pip install --upgrade BiostarHandbook
conda install -c bioconda emboss
conda install -c bioconda taxonkit samtools
数据下载
# Obtain the file.
wget -nc http://data.biostarhandbook.com/books/corona/data/corona-virus-project.tar.gz
链接:https://pan.baidu.com/s/1jfW-_QXaVShAwi0bzgz_tA 密码:cdm0
# Unpack the data.
tar zxvf corona-virus-project.tar.gz
然后运行handbook的sh脚本
# Get the recipe.
curl -O http://data.biostarhandbook.com/books/corona/code/nCov-getdata.sh
# Run the recipe.
bash nCov-getdata.sh
数据命名
在我们的研究中,我们发现我们经常偶然使用不正确的数据。为了使我们的意图更具可读性,我们将使用以下命名约定:
nCov- 将参考新的冠状病毒的数据,也称为SARS-Cov22019-nCov
SARS- 指定病毒的数据SARS-Cov
batSARS- 指示在蝙蝠身上观察到的病毒数据。SARS-like
在 shell 中设置以下变量(如果需要,复制粘贴):
nCov=refs/NC_045512.fa
SARS=refs/KT444582.fa
batSARS=refs/MG772933.fa
对序列进行聚类
cd-hit -i refs/nCov-genomes.fa -o out
cat out.clstr | grep at | awk ' { print $5 } ' | tr -d '%' | datamash min 1 max 1 median 1
结果最小、最大和中位数的相似性为:
99.11 99.99 99.97
nCov所有基因组的中位数相似性为99.97。
由于基因组长约30000,99.97%的特性会导致不同的碱基。一半的测序病毒基因组的突变将少于突变。30000 * 0.0003 = 99
这里所看到的高基因组相似性表明,一代又一代,所有病毒都可以追溯到短时期内的同一源。