论文
High-quality Arabidopsis thaliana Genome Assembly with Nanopore and Hi‐ Fi Long Reads
本地文件名 拟南芥.pdf
参考资料
- 公众号
小白鱼的生统笔记
推文三代测序基因组组装工具NextDenovo
- 公众号
生信媛
推文使用NextDenovo组装Nanopore数据
- NextDenovo 软件的帮助文档 https://nextdenovo.readthedocs.io/en/latest/index.html
- NextDenovo 软件的github主页 https://github.com/Nextomics/NextDenovo
下载原始测序数据
wget ftp://download.big.ac.cn/gsa/CRA004538/CRR302667/CRR302667.fastq.gz
查看数据的基本情况
~/Biotools/SeqKit/seqkit stats -a CRR302667.fastq.gz -T
seqkit软件的下载链接
https://bioinf.shenwei.me/seqkit/download/
论文中对这部分的描述
A total of 56.54 Gb of ONT long reads with ~388 × coverage were generated including ~177 × coverage of ultra-long (> 50 kb) reads. The N50 of ONT long reads is 46,452 bp, and the longest reads were 495,032 bp.
关于配置文件的设置
这里关于各个参数都是什么意思还需要仔细看
https://nextdenovo.readthedocs.io/en/latest/OPTION.html
论文中关于参数的设置描述
The long-read assembler NextDenovo v. 2.0
(https://github.com/Nextomics/NextDenovo) was used to assemble the ONT long reads with parameters: ‘read_cutoff = 5k’ and ‘seed_cutoff = 108,967’.
我这边是直接使用的test_data下的配置文件
组装差不多用了12个小时,最终组装结果
18个contig,论文中好像是得到了14条contig,N50直接达到15M
今天的推文内容先到这里了,关于论文的内容还需要好好看
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!