faidx:
samtools faidx xxx.fa
能够对fasta 序列建立一个后缀为.fai 的文件
该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同,
>one
ATGCATGCATGCATGCATGCATGCATGCAT
GCATGCATGCATGCATGCATGCATGCATGC
ATGCAT
>two another chromosome
ATGCATGCATGCAT
GCATGCATGCATGC
最后生成的.fai文件如下, 共5列,\t分隔;
one 66 5 30 31
two28981415
第一列 NAME : 序列的名称,只保留“>”后,第一个空白之前的内容;
第二列 LENGTH: 序列的长度, 单位为bp;
第三列 OFFSET : 第一个碱基的偏移量, 从0开始计数,换行符也统计进行;
第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的碱基数, 单位为bp;
第五列 LINEWIDTH : 行宽, 除了最后一行外, 其他代表序列的行的长度, 包括换行符, 在windows系统中换行符为\r\n, 要在序列长度的基础上加2;
提取序列:
提取序列:
samtools faidx input.fa chr1 > chr1.fa
samtools faidx input.fa chr1:100-200 > chr1.fa
#
对于UCSC的chr肯定是可以用的:
>chr1
>chr2
...
对于ensemble呢?可行
>1 dna:chromosome chromosome:GRCh38:1:1:248956422:1 REF
>2 dna:chromosome chromosome:GRCh38:2:1:242193529:1 REF
...
# samtools faidx input.fa 1 > chr1.fa
# head -n 2 chr1.fa
>1
ATCG...
# samtools faidx input.fa 1 2 3 > chr1+2+3.fa
# samtools faidx input.fa chr1 chr2 chr3 > chr1+2+3.fa
提取all:
samtools faidx GRCh37.p13.genome.fa chr1 chr2 chr3 chr4 chr5 chr6 chr7 chr8 chr9 chr10 chr11 chr12 chr13 chr14 chr15 chr16 chr17 chr18 chr19 chr20 chr21 chr22 chrX chrY > GRCh37.chr.fa