lncRNA具有一系列独特特性,这些特性与编码蛋白质的mRNA有或多或少的区别。需要将鉴定出的新lncRNA与数据库中的lncRNA以及蛋白质编码基因属性进行比较,从而确定它们是否为真正的lncRNA。
这些属性包括,转录本长度,表达水平,保守性(外显子和内含子),GWAS SNP的富集等等。如果这些属性与已知的lncRNA类似,且与蛋白编码基因差别大则说明鉴定出的lncRNA为真正的lncRNA。
lncRNA到底能不能翻译,还得看其自身先天条件——是否具有核糖体结合位点;是否具有开放阅读框(ORF)。只有两种条件都符合(满足开放阅读框,核糖体结合位点),并且翻译的多肽在物种间具有一定保守性,那么该lncRNAc才算是有了翻译的本钱。
lncRNA的识别可分为3步:
1)length>200, coverage >1, FPKM >=0.5;
2)class_code :i,j,x,u,o
3)滤除mRNA
滤除mRNA提取lncRNA, 一是通过已知数据库注释;对于新的转录本通过编码能力预测,区分mRNA和lncRNA。
编码能力预测
编码能力预测的软件有:
CPC : http://cpc.cbi.pku.edu.cn/
PfamScan:http://pfam.xfam.org/
CNCI:https://github.com/www-bioinfo-org/CNCI
软件的基本原理:
1)通过ORF长度判别,对于编码蛋白质的mRNA来说,其开放阅读框(ORF)长度一般大于300碱基或100氨基酸。因此,若RNA序列的ORF小于300碱基,其编码蛋白质的可能性会非常小;
2)根据ORF保守性,采用比较基因组学的方法进行判别,mRNA的ORF具有保守性,即可编码蛋白质的转录本序列与已注释的蛋白质或蛋白质结构域有同源相似性;
3)通过RNA二级结构保守性预测。常用的根据二级结构保守性来识别ncRNA的方法有QRNA、RNAz、EvoFOLD等;
4)综合性方法。
CPC
CPC采用监督机器学习(supervised machine learning)方法,通过学习肽链长度、氨基酸构成、蛋白质同源性、二级结构、蛋白质比对或表达等多种特征,建立分类模型。其分类模型主要基于序列ORF长度和蛋白质同源性等特征;另一种综合性方法是将以上方法串联,形成一个过滤流程,用以区分mRNA与ncRNA。
PfamScan
Pfam是一个大型的蛋白质家族集合的数据库,每个都由多个序列比对和隐马尔可夫模型(HMM)表示。利用
PfamScan工具注释组装的转录本序列,如果比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA。
CNCI
CNCI(Coding-Non-Coding Index) 是通过分析相邻核苷酸三联体来鉴定编码和非编码序列。CNCI是开发了NONCODE数据库的赵屹团队开发的,可以对fasta文件或者gtf文件都可以进行注释。
软件安装和具体使用方法
待整理更新
参考资料:
一个初学者的LncRNA分析之路
基于RNA-Seq的lncRNA预测流程介绍
BioChen的博客关于CPC,CNCI及CRAT的介绍
GFFCOMPARE和GFFREAD
Pfam数据库蛋白编码能力预测
lncRNA筛选