NCBI数据库
NCBI编号的解释
AC:一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。
AP:AC标记对应的蛋白产物。
NC:完整的基因组分子序列,标记的类别为基因组、染色体、细胞器、质粒。
NG:不完整的基因组。
NM:转录产物序列,成熟mRNA转录本序列。
NP:蛋白产物,主要是全长转录氨基酸序列,有一些只有部分蛋白质的部分氨基酸序列。
NR:非编码的转录子序列,包括结构RNAs,假基因转子。
NT:BAC或鸟枪法的还未完全注释的测序序列。
NW:BAC或鸟枪法的还未完全注释的测序序列。
NZ:automated 收集的各种利用鸟枪法测序的测序计划。
XM:automated 转录产物,mRNA来自基因组注释,序列相当于基因组重叠群。
XP:automated 蛋白产物。
XR:automated 转录产物。
YP:蛋白产物,不涉及到转录,主要用来标记细菌、病毒和线粒体。
ZP:automated 蛋白产物,主要是用电脑自动注释。
NS:automated 未知生物分子基因组序列。
Entrez
对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白,包括了物种的序列序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和 PubMed MEDLINE 的访问。
使用Entrez Direct
esearch
esearch -db nucleotide/sra/protein -query ... #-db是指定数据库类型,而query是跟着你要搜索的关键词
efetch
esearch -db nucleotide/sra/protein -query ... | efetch -format fasta #将搜索结果的fasta格式存储
Linux
tr
从标准输入删除或替换字符,并将结果写入标准输出
tr '{}' '()' < textfile > newfile 大括号转换为小括号
tr 'a-z' 'A-Z' < textfile > newfile 大小写
tr -cs '[:lower:][:upper:]' '[\n*]' < textfile > newfile 这便将每一序列的字符(除大、小写字母外)都转换成单个换行符。*(星号)可以使 tr 命令重复换行符足够多次以使第二个字符串与第一个字符串一样长。
tr -d '\0' < textfile > newfile 删除所有空字符
echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line. 用tr压缩字符,可以压缩输入中重复的字符
cat file | tr -s "\r" "\n" > new_file / cat file | tr -d "\r" > new_file 删除Windows文件“造成”的'^M’字符
datamash
文本数据处理
seq 10 | datamash sum 1
DATA=$(printf "%s\t%d\n" a 1 b 2 a 3 b 4 a 3 a 6);echo "$DATA" | datamash -s -g1 collapse 2
具体例子:https://www.gnu.org/software/datamash/alternatives/
R-PCA
一些注意点:
#apply PCA - scale. = TRUE is highly advisable, but default is FALSE.
#standardize the variables prior to the application of PCA
ir.pca <-prcomp(log.ir,center =TRUE,scale. =TRUE)
#数据大于变量,即行大于列,则应该是R mode的数据 ,转置后变为Q mode——研究observation之间的关系
(这周的笔记是个大杂烩,把这周学到的内容都记下来,方便以后查找。未完待续~)