如何批量预测转录因子
前一段时间看文献,想预测转录因子,搜索发现Y叔的clusterProfiler的R包具有批量预测转录因子的功能,用R包自带的数据,可以运行,但是用自己的数据总是报错。
最近,有想到了这个问题,发现很多网站可以预测转录因子及DNA结合位点。但是多数网站都不支持批量预测,只能一个基因一个基因的预测。
先把能批量预测的网站贴出来:
Home http://www.tfcheckpoint.org/
支持预测结果的下载。
有些网站提供了转录因子文本的下载,这个很好。我把他们的文本下载到本地,把自己的数据匹配上去,也要找到转录因子。有些网站很久没有更新了,转录因子的文本比较少。不同网站预测后,还可以相互比较验证。有些网站工具,比较人性化,还有转录因子对应的样本、表达变化情况等。
可以提供转录因子下载的网站:
HumanTFDB http://bioinfo.life.hust.edu.cn/HumanTFDB/#!/
这个数据库详情可以参考:
AnimalTFDB 3.0 | 动物转录因子注释和预测的综合资源库_数据库
Home http://www.tfcheckpoint.org/
下面是各种转录因子预测网站
1 、 TRANSFAC ( http://www.gene-regulation.com/pub/databases.html#transfac)
德国生物工程研究所开发的 TRANSFAC 数据库是关于转录因子、它们在基因组上的结合位点和与 DNA 结合的 profiles 的数据库。由 SITE 、 GENE 、FACTOR 、 CLASS 、 MATRIX 、 CELLS 、 METHOD 和 REFERENCE 等数据表构成。此外,还有几个与 TRANSFAC 密切相关 的扩展库:PATHODB 库收集了可能导致病态的突变的转录因子和结合位点; S/MART DB 收 集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH 库用于描述与转录因子 调控相关的信号传递的网络;CYTOMER 库表现了人类转录因子在各个器官、细胞类型、生 理系统和发育时期的表达状况。TRANSFAC 及其相关数据库可以免费下载,也可以通过 Web 进行检索和查询。 TRANSFAC 数据库始建于 1988 年,采用关系数据库模式,用表格存放数 据。1997 年起,基于 Web 的版本开始上网,目前,该数据库正在进一步开发,如构建各种转 录因子在不同细胞组织中的表达特异性数据库等。()
2 、 EPD (http://www.epd.isb-sib.ch/)
是真核基因启动子数据库,提供从 EMBL 中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核 基因的转录信号。现有1500 多个启动子序列数据,按照层次式方式组织数据。关于启动子 的描述信息直接摘自科学文献,因而相对独立于EMBL 。 该数据库所有的启动子均经过一系列的实验证实:如是否为真核RNA 聚合酶 Ⅱ 启动 子、是否在高等真核生物中有生物学活性、是否与数据库中的其他启动子有同源性等等。EPD 与其他的相关数据库也建立了相关链接,如 EMBL 、 SWISS-PROT 、 TRANSFAC 等。 在最新版本第76 版本中, EPD 将收集的启动子分为六大类:植物启动子、线虫启动子、 拟南芥启动子、软体动物启动子、棘皮类动物启动子和脊椎动物启动子。共2997 个条目, 其中脊椎动物中的人类启动子有1871 个,约占总数的 62% 。 EPD 是目前唯一的一个实验证实启动子数据库,所以是各种预测软件的评论手段之一。
3 、 SCPD (http://cgsigma.cshl.org/jian/)酵母启动子数据库(The Promoter Database of Saccharomyces cerevisiae )
提供 6000 余 条酵母基因和ORF 以及相关的调控元件和转录因子数据。在 SCPD 中列有酵母菌的 256 个转 录因子,目前已经可以借助基因表达分析来搜寻基因的调控位置。Roth 等人及 Hughes 等人针 对有类似基因表现图谱的基因启动子位置,寻找统计上经常出现的DNA 序列,发现 3311 个 DNA motif ,经归类后有近 400 个 DNA motif 。由于一个基因的启动子区域经常含有一个以上 的不同的DNAmotif ,并且无法知道哪些 DNAmotif 必须同时与转录因子结合进而促进基因表 达。Pilpel 等人设计了一种称作基因表达一致性分数( Expression Coherence Score )的度量, 做法是先收集酵母菌全部在启动子区域上拥有某种特殊DNA motif 组合的基因,接下来计算 酵母菌在不同生理状况下基因表现的相关性(即Expression Coherence Score ),如果相关系数高,则可以推测出此种DNAmotif 的特殊组合对基因表达进行调控。
4 、 TRRD (http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/)
转录调控区数据库( Transcription RegulatoryRegions Database ) 是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各 种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD 包括五个相关的数据表:TRRDGENES( 包含所有 TRRD 库基因的基本信息和调控 单元信息) ; TRRDSITES( 包括调控因子结合位点的具体信息 ) ; TRRDFACTORS( 包括 TRRD 中与各个位点结合的调控因子的具体信息 ) ; TRRDEXP( 包括对基因表达模式的具体描述 ) ; TRRDBIB( 包括所有注释涉及的参考文献 ) 。 TRRD 主页提供了对这几个数据表的检索服务。 5.JASPAR http://jaspar.genereg.net/
JASPAR 是收集有关转录因子与 DNA 结合位点模体 (motif) 的最全面的公开的数据库 , 该数据库是由哥本哈根大学 (University of Copenhagen) 负责日常数据更新维护工作。 JASPAR 数据库中所包含的数据 , 都经过严格筛选 , 有确切的实验依据 , 通过计算机辅助软件进行整合识别匹配并用生物学手段进行注释。 JASPAR 中的数据是完全公开的 , 用户可以通过主页对数据库进行直接访问。网站在最新一次更新中对 JASPAR_CORE 根据物种分成 5 类 , 即脊椎动物门 (Vertebrata) 、线虫纲 (Nematoda) 、昆虫纲 (Insecta) 、植物界 (Plantae) 和真菌界 (Fungi), 以及根据结构归类 , 用户可以清晰地在主页上找到相应链接。网站还提供了根据序列号 (ID) 、物种等特性进行的搜索 , 还可以直接浏览 数据库的内容。同时 , 用户通过主页可以下载 JASPAR 中的数据到自己的电脑上。与同领域相似数据库相比 , JASPAR 是一个非冗余的数据 库 , 数据来源经过严格筛选 , 并且对所有数据提供免费下载 , 并有相应软件配套使用。但是相对于 TRANSFAC 等其他数据库 , JASPAR 所包 含的数据量比较小 , 用户可以根据需要选择相应的数据库 .
6.HT-SELEX http://ccg.vital-it.ch/htpselex/
7.CisBP: the online library of transcription factors and their DNA binding motifs http://cisbp.ccbr.utoronto.ca/
8. TFCat: The curated catalog of mouse and human transcription factors http://www.tfcat.ca/
9.HumanTFs: The Human Transcription Factors http://humantfs.ccbr.utoronto.ca/
#################################
Related databases
#################################
1.Motif Databases---MEME Suite http://meme-suite.org/db/motifs
2.myHITS:A database and web tools devoted to protein domains https://myhits.isb-sib.ch/
3.CleanEx: A database which provides access to public gene expression data via unique approved gene symbols http://cleanex.vital-it.ch/index.html
参考
科学网—转录因子数据库汇总 - 熊朝亮的博文 http://blog.sciencenet.cn/home.php?mod=space&uid=1509670&do=blog&id=1100882