生物信息学分析和作图是科研狗们的必备技能。近几年,随着数据类型的增多,excel、SPSS等常用软件已经不能满足科研需求了。R语言以其方便、快捷的优势,迅速获得许多编程技术不好的科研狗的青睐。凭借短短几行代码,就能完成各种高大上的数据分析,关键还能做出漂亮的图。但天天跟代码打交道也颇为头疼,作为一般的科研人员,并不需要完全掌握代码,只要会使用生物信息学网页工具就差不多了。
1、转录因子数据库
ooTFD:http://www.ifti.org
2、北京大学生物信息学中心
http://www.cbi.pku.edu.cn
3、BioEdit 软件
核苷酸和蛋白质序列分析软件:http://www.bioedit.com/
4、韦恩图
Venny2.0
升级版韦恩图
jvenn: 可做到6个
5、基因预测
FGENESH
6、phylogenetic
进化树:iTOL
在线构建进化树
IQTREE Web Server: Fast and accurate phylogenetic trees under maximum likelihood
7、启动子区预测
Promoter Scan
8、蛋白质一级结构分析
PredictProte
9、ExPASy-ProtParam tool
10、蛋白质磷酸化位点
NetPhos 2.0
11、信号肽
SignalP
12、跨膜结构域
TMHMM Server v. 2.0
13、蛋白质亚细胞定位
TargetP 1.1 Server
14、蛋白质二级结构分析
SOPMA
15、蛋白质三级结构预测
SWISS-MODEL
16、短序列拼接
Cap3
17、多序列比对相似性展示
SimiTriX-SimiTetra
18、多序列比对可视化
MView: A multiple alignment viewer or AlignmentViewer
19、过滤多序列比对结果
GUIDANCE2 Server: Server for alignment confidence score
20、绘制GO注释结果
WEGO:Web Gene Ontology Annotation Plotting
21、蛋白质 Pfam database meme:Multiple Em for Motif Elicitation
SMART Conserved Domains within a protein or coding nucleotide sequence
1. 模体(motif)
属于蛋白质的超二级结构,由2个或2个以上具有二级结构的的肽段,在空间上相互接近,形成一个特殊的空间构象,并发挥专一的功能。一种类型的模体总有其特征性的氨基酸序列。
模体是二级结构有规律的组合。例如螺旋-环-螺旋,贝塔折叠的组合、阿而法螺旋组合等。再比如亮氨酸拉链、锌指结构都是典型的模体,它们执行一定的功能,即模体即是结构的单位,又是功能单位,他们可直接作为结构域和三级结构的建筑块。某些蛋白质因子与DNA大沟结合的部位靠的就是某些特异的模体。
2. 结构域(domain)
是指在较大的分子(主要指蛋白质也包括核酸分子)中形成的某些在空间上可以辨别的结构,往往是球状压缩区或纤维状压缩区。它们也既是结构单位,又是功能单位。例如免疫球蛋白的功能区就是结构域。
22、基因组杂合性评估
GenomeScope:Estimate genome heterozygosity, repeat content, and size from sequencing reads using a kmer-based statistical approach
23、circos图
CIRCOS可以用来画基因组数据的环状图,也可以用来绘制其它数据的相关环状图。
1. 需要注意的是上传数据格式为空格或tab分隔的txt格式纯文本列表文件,值均为非负整数,若存在缺失值,用“-”线代替,若有小数,每一个单元格乘以某一值(如1000),化为整数,且每个单元格中只能有数字,其他任何符号都不行,除了缺失的“-”,(1555,而不是1,555);
2. 在线版只能绘制75阶方阵数据,若需要绘制较复杂的请下载Circos and use the tableviewer tool。
3. 每一个标签所对应半圈的总长度为这一标签所对应的所有值的和,不同半圈间连线表示这两标签所表示的值。
元数据可视化
Web-Igloo:Interactively visualizing multivariate data without feature decomposition
需要数据和元数据两个文件,实例数据结构如下:
数据(Select data file (Tab delimited))
Samples Palmitic Palmitoleic Stearic Oleic Linoleic Linolenic Arachidic Eicosenoic
S1 1075 75 226 7823 672 36 60 29
S2 1088 73 224 7709 781 31 61 29
S3 911 54 246 8113 549 31 63 29
S4 966 57 240 7952 619 50 78 35
S5 1051 67 259 7771 672 50 80 46
S6 911 49 268 7924 678 51 70 44
S7 922 66 264 7990 618 49 56 29
S8 1100 61 235 7728 734 39 64 35
S9 1082 60 239 7745 709 46 83 33
S10 1037 55 213 7944 633 26 52 30
S11 1051 35 219 7978 605 21 65 24
S12 1036 59 235 7868 661 30 62 44
元数据(Select metadata (Tab delimited))
Samples Geography
S1 N
S2 N
S3 N
S4 NA
S5 NA
S6 NA
S7 NAp
S8 NAp
S9 NAp
S10 NApulia
S11 NApulia
S12 NApulia
24、基因结构展示
GSDS2.0: Gene Structure Display Server
AnnotationSketch
25、外显子-内含子结构
Exon-Intron Graphic Maker MyDomains DomainDraw draws
蛋白突变位点注释
MutationMapper: interprets mutations with protein annotations
26、regulatory genes 分析
Transcription factors, transcription regulators, and chromatin regulators, collectively referred to as regulatory genes.
PlantTFcat: An Online Plant Transcription Factor and Transcriptional Regulator Categorization and Analysis Tool
27、密码子偏好性 (Codon Optimization)
Codon Optimization On-Line (COOL)
Codon Optimization Tool:Integrated DNA Technologies
28、序列格式转换(Sequence Format Conversion)
EMBOSS Seqret
29、真菌效应蛋白预测
EffectorP: predicting fungal effector proteins from secretomes using machine learning
BLAST结果可视化
kablammo: Visualize your BLAST results
30、植物基因家族分类和富集分析
GenFam: Gene Family based classification and enrichment analysis
31、生物类文件格式转换
Sequence conversion
32、Plant-Specific Myristoylation Predictor
Plant-Specific Myristoylation Predictor
33、启动子元件预测
Plant CARE: Search for CARE
34、植物启动子/转录因子分析
PlantPAN 3.0