1.FASTA/Q
利用seqkit对FASTA/Q格式的序列文件进行操作,使用说明和安装可以查看:seqkit
#对文件进行简单的统计:
seqkit stat *.gz
#统计序列的gc含量:
seqkit fx2tab -j 4 -n -i -g viral.*.fna.gz
#可以自定义命令行,计算A、C含量与AC含量:
seqkit fx2tab -j 4 -n -i -H -B a -B c -B ac viral.*.fna.gz
#对序列进行随机抽样:(-p 0.001表示以0.001的比例抽取)
seqkit sample -p 0.001 duplicated-reads.fq.gz|seqkit seq -n -i>id.txt|wc -l
#根据抽取出来的id进行搜索:
seqkit grep -f id.txt duplicated-reads.fq.gz>duplicated-reads.subset.fq.gz
#如何查找序列中的多义碱基:
seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'
#将存在这些的ID存入一个文本:
seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'|cut -f 1 > id2.txt
#然后排除这些序列:
seqkit grep -f id2.txt -v viral.1.1.genomic.fna.gz > clean.fa
#对序列进行去重:
seqkit rmdup -s -i duplicated-reads.fq.gz > duplicated-reads.uniq.fq.gz
#查找基序、酶切位点等子序列:
seqkit locate -d -i -f enzymes.fa viral.1.1.genomic.fna.gz
#如何根据开头信息分割fasta文件?首先查看开头:
seqkit head -n 3 viral.1.protein.faa.gz|seqkit seq -n
#根据id进行分割:
seqkit split -j 4 -i --id-regexp "\[(.+)\]" viral.1.protein.faa.gz
#对含有‘hypothetical’的序列进行搜索
seqkit grep -n -r -i -p 'hypothetical' viral.1.protein.faa.gz|seqkit head -n 3|seqkit seq -n