由于实验技术或操作原因,有些高通量测序数据中存在大量的rRNA污染,评估和去除rRNA是后续分析的基础。
首先 到核糖体RNA数据库 silva(high quality ribosomal RNA databases)下载rRNA序列。
选择下载下面两个文件:
SILVA_138.1_LSUParc_tax_silva_trunc.fasta.gz ## Large subunit (23S/28S ribosomal RNAs)
SILVA_138.1_SSUParc_tax_silva_trunc.fasta.gz ## Small subunit (16S/18S ribosomal RNAs)
解压以后使用下面的命令提取泛植物 rRNA
cat *.fasta|perl -ne 'BEGIN{$id=q{};$seq=q{}}chomp;if(/^>/){print $id,qq{\n},$seq,qq{\n} if ($id=~/Eukaryota;Archaeplastida/);$id=$_;$seq=q{}}else{$seq.=$_;}END{print $id,qq{\n},$seq,qq{\n} if ($id=~/Eukaryota;Archaeplastida/)}'|perl -pe 'tr/U/T/ unless /^>/' > panPlant.rRNA.fa