常用数据类型
- DNA序列表征
A =腺嘌呤
C =胞嘧啶
G =鸟嘌呤
T =胸腺嘧啶
U =尿嘧啶
R = GA(嘌呤)
Y = TC(嘧啶)
K = GT(酮)
M = AC(氨基)
S = GC
W = AT
B = GTC
D = GAT
H = ACT
V = GCA
N = AGCT(任何) -
fastaq:保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:@+ID号
第二行:碱基序列
第三行:+,序列的描述信息
第四行:第二行的序列质量评价
- fasta:序列信息
第一行:>+ID
第二行:序列
两种格式可以相互转化
-
GenBank格式
-
EMBL格式