基因组中重复序列大体分为两类:串联重复(Tandem repeats,Tandem Duplication) (TRF可预测)散在重复(Dispersed repeats),...
基因组中重复序列大体分为两类:串联重复(Tandem repeats,Tandem Duplication) (TRF可预测)散在重复(Dispersed repeats),...
根据已有的蛋白库,对从基因组上提取到的蛋白序列进行比对,从而获得相应的信息。 常用的数据库: Nr:NCBI官方非冗余蛋白数据库,包括PDB, Swiss-Prot, PIR...
Data preparation 继续上次的内容,下载好数据后就可以正式开始鉴定了。首先回顾一下,下载好的数据。 基因组序列信息,存储基因组序列信息的.fasta文件。还有其...
提取基因对应的蛋白质官方名 最开始,是需要将基因跟其编码的蛋白质对应起来,找遍了各种数据库都没发现有相关的注释文件,Uniprot作为处理蛋白质的大佬,结果里都有,肯定有办法...
Protein domain: 结构域的概念由Wetlaufer于1973年首次提出,他定义结构域为可以自动折叠的稳定的蛋白质结构单位。过去,结构域被描述为,折叠单位,致密结...
最近刚返校,事情比较多,每天也很忙,之前写的《基因家族扩张与收缩分析及物种进化树构建(上)》也一直没来得及更新,缺少cafe输出结果的解读及后面的可视化。最近在简书上也收到了...
以下是B站生信技能树GEO数据库挖掘的课程笔记 主要内容及学习目的: 介绍GEO数据库:了解数据存放位置; 介绍GSE项目的3种下载方式; 介绍ID转换:使用R语言技巧实现基...
1、基本统计学概念 假设检验• 零假设(H0):即原假设• 备择假设(H1):与零假设对立的假设• 计算零假设(H0)成立的概率• 如果H0成立的概率很低(e.g. 5% o...
参考文章:1.如何统计BAM文件中的reads数2.Samtools常用命令的总结 当你有很多个bam文件时,想知道这些bam文件里有多少个比对上的reads,并且把它们输出...
RNA-seq或者ChIP-seq等等测序的上游分析流程里的比对步骤相信大家都知道,我之前也只是按照各种教程去走流程,并没有仔细的研究过每一步的内容。今天这篇文章学习一下sa...