基因组注释第一步:重复序列注释
串联重复序列(卫星序列)
:特定的单元首尾相连
特定的单元散落:散在重复序列(转座子)
分类:
卫星序列 :重复序列长度大于100bp
小卫星序列:重复序列长度在10-100之间
微卫星重复序列:重复序列长度小于10bp
用于注释串联重复序列软件:TRF(从头预测)、RepeakMaster(同源):自带重复序列库,
散在重复序列--转座子(TE)
分类:
class1 转座时会产生中间产物RNA,也叫反转座子
class2,DNA-DNA,也叫DNA转座子
转座方式可分为:class1 复制粘贴,class2 (复制粘贴subclass1、、剪切粘贴subclass2)
可根据插入的机制(转座到目标这个位置)---order级别
LTR(转座元件)-长末端重复序列,在植物基因组中含量多 ,对基因组大小序列变化的主要因素,LTR两端会形成一模一样的,随着时间的流逝,两端的基因序列会发生突变,测得一个物种后,找到这个元件,可以看一下两端的差异,来确定这个物种进化的年限,进化中比较常见的。
还有两类转座元件是line-长散在元件、sine--短散在元件,,在动物中比较多,
其中SINE的Alu元件在人中含量非常多,有一段和tRNA同源序列
TIR、crpyon
注释重复序列软件
1.从头预测
2.特异的结构
3.基因组自身和自身比对
4.同源注释
重复序列注释思路:
基因功能注释
基于同源预测的方法,
常见功能数据库