生信文件格式一文就够

fasta格式是最基本的表示序列信息的格式。是一种文本格式，一般以后缀.fa或者.fasta

主要由两部分组成：

第一部分以>符号开头，定义行=序列的名称或者标识（gi|187608668|ref|NM_001043364.2| ）+空格后是序列的描述信息（Bombyx mori moricin (Mor), mRNA），另外NCBI赐予每个序列一个gi号。

第二部分就是序列，可以使碱基序列也可以是氨基酸序列。

>gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNA

AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTCTTTGTTTTTA

TTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCCAGCAAAAATACCT

ATCAAGGCCATTAAGACTGTAGGAAAGGCAGTCGGTAAAGGTCTAAGAGCCAT

Fastq格式同样是以文本形式来储存序列信息的格式，后缀通常位.fq或者.fastq，最早有Sanger机构开发，目前大多数NGS高通量测序的标准下机格式就是FASTQ。其序列以及质量信息都是使用一个ASCII字符标示

fastq格式文件中一个完整的单元分为四行，每行的含义如下：

第一行：以@开头，内容同fasta的描述行类似

第二行：具体的碱基序列

第三行：以+开头，后面的内容可以和第一行类似，也什么都没有只留+

第四行：以ASCII字符集（分数）编码来表示对应碱基的测序质量。

如下图，ASCii码为从 “！”（0+33）到“I”(40+33）。

因为Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的，例如红黄蓝绿分别对应ATCG，那么一旦出现一个紫色的信号该怎么判断呢，因此对每个结果都有一个概率的问题。起初sanger测序法使用的判断碱基概率的方法是，用Phred quality score来衡量该read中每个碱基的质量，既-10lgP。其中P代表该碱基被测序错误的概率，如果该碱基测序出错的概率为0.001，则Q应该为30，那么30+33=63，那么63对应的ASCii码为“？”，则在第四行中该碱基对应的质量代表值即为“？”。

Fastq格式

sra是NCBI推出的存储高通量数据的格式，只是一个压缩数据的标准，没有软件能够直接分析SRA格式的数据，所有一般我们要把SRA格式的数据转换为FASTQ，可以使用SRAtoolkit的fastq-dump，可以在ncbi官方网站下载，这里面包含一系列的转换工具。

其实对于单端测序，我更喜欢用pfastq-dump

pfastq-dump介绍

双端测序

fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@\$ac-\$si/\$ri' SRR_ID

详细请看https://www.jianshu.com/p/a8d70b66794c

SAM格式：bwa、Bowtie2是现下最流行的短序列比对软件，SAM(Sequence Alignment/Map)格式是一种通用的比对格式，用来存储reads到参考序列的比对信息。

SAM代表Sequence Alignment/Map格式，是一种制表符分隔的文本格式，包含一个可选的头部分（header section，有人称之为“注释部分”），和一个比对部分（alignment section）。如果包含头部分，那么头部分必须置于比对部分之前。头部分的行以@符号开头，而比对部分的行不以@符号开头。比对部分的每一行包含11个必选的字段，用于说明重要的比对信息，如比对位置（mapping position）等；另有可变数量的可选字段，用于存储其他信息（flexible）或比对软件特异的信息。

头文件

每个标题行以字符“@”开头，后面是两个字母的记录类型代码。在标题中，每一行都是由制表符分隔的，除了@CO行，每个数据字段都遵循格式“TAG:VALUE”，其中TAG是一个两个字母的字符串，定义了内容和值的格式。每个标题行应该匹配:/ ^ @[A-Za-z][A-Za-z](\ t[A-Za-z][A-Za-z0-9]:[- ~]+)+ $ /或/ ^ @CO \ t。* /。包含小写字母的标记保留给最终用户。

然后，第一列为ID或者名称，第二列为比对类型，第三列是参考基因组信息，第四列为坐标，第五列为质量值，第6列为比对信息，第十列为碱基序列