如何批量预测转录因子

如何批量预测转录因子

前一段时间看文献,想预测转录因子,搜索发现Y叔的clusterProfiler的R包具有批量预测转录因子的功能,用R包自带的数据,可以运行,但是用自己的数据总是报错。

最近,有想到了这个问题,发现很多网站可以预测转录因子及DNA结合位点。但是多数网站都不支持批量预测,只能一个基因一个基因的预测。
先把能批量预测的网站贴出来:

Home http://www.tfcheckpoint.org/
支持预测结果的下载。

有些网站提供了转录因子文本的下载,这个很好。我把他们的文本下载到本地,把自己的数据匹配上去,也要找到转录因子。有些网站很久没有更新了,转录因子的文本比较少。不同网站预测后,还可以相互比较验证。有些网站工具,比较人性化,还有转录因子对应的样本、表达变化情况等。
可以提供转录因子下载的网站:

HumanTFDB http://bioinfo.life.hust.edu.cn/HumanTFDB/#!/

这个数据库详情可以参考:
AnimalTFDB 3.0 | 动物转录因子注释和预测的综合资源库_数据库

Home http://www.tfcheckpoint.org/

下面是各种转录因子预测网站

1 、 TRANSFAC ( http://www.gene-regulation.com/pub/databases.html#transfac

德国生物工程研究所开发的 TRANSFAC 数据库是关于转录因子、它们在基因组上的结合位点和与 DNA 结合的 profiles 的数据库。由 SITE 、 GENE 、FACTOR 、 CLASS 、 MATRIX 、 CELLS 、 METHOD 和 REFERENCE 等数据表构成。此外,还有几个与 TRANSFAC 密切相关 的扩展库:PATHODB 库收集了可能导致病态的突变的转录因子和结合位点; S/MART DB 收 集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH 库用于描述与转录因子 调控相关的信号传递的网络;CYTOMER 库表现了人类转录因子在各个器官、细胞类型、生 理系统和发育时期的表达状况。TRANSFAC 及其相关数据库可以免费下载,也可以通过 Web 进行检索和查询。 TRANSFAC 数据库始建于 1988 年,采用关系数据库模式,用表格存放数 据。1997 年起,基于 Web 的版本开始上网,目前,该数据库正在进一步开发,如构建各种转 录因子在不同细胞组织中的表达特异性数据库等。()
2 、 EPD (http://www.epd.isb-sib.ch/
是真核基因启动子数据库,提供从 EMBL 中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核 基因的转录信号。现有1500 多个启动子序列数据,按照层次式方式组织数据。关于启动子 的描述信息直接摘自科学文献,因而相对独立于EMBL 。 该数据库所有的启动子均经过一系列的实验证实:如是否为真核RNA 聚合酶 Ⅱ 启动 子、是否在高等真核生物中有生物学活性、是否与数据库中的其他启动子有同源性等等。EPD 与其他的相关数据库也建立了相关链接,如 EMBL 、 SWISS-PROT 、 TRANSFAC 等。 在最新版本第76 版本中, EPD 将收集的启动子分为六大类:植物启动子、线虫启动子、 拟南芥启动子、软体动物启动子、棘皮类动物启动子和脊椎动物启动子。共2997 个条目, 其中脊椎动物中的人类启动子有1871 个,约占总数的 62% 。 EPD 是目前唯一的一个实验证实启动子数据库,所以是各种预测软件的评论手段之一。
3 、 SCPD (http://cgsigma.cshl.org/jian/)酵母启动子数据库(The Promoter Database of Saccharomyces cerevisiae )

提供 6000 余 条酵母基因和ORF 以及相关的调控元件和转录因子数据。在 SCPD 中列有酵母菌的 256 个转 录因子,目前已经可以借助基因表达分析来搜寻基因的调控位置。Roth 等人及 Hughes 等人针 对有类似基因表现图谱的基因启动子位置,寻找统计上经常出现的DNA 序列,发现 3311 个 DNA motif ,经归类后有近 400 个 DNA motif 。由于一个基因的启动子区域经常含有一个以上 的不同的DNAmotif ,并且无法知道哪些 DNAmotif 必须同时与转录因子结合进而促进基因表 达。Pilpel 等人设计了一种称作基因表达一致性分数( Expression Coherence Score )的度量, 做法是先收集酵母菌全部在启动子区域上拥有某种特殊DNA motif 组合的基因,接下来计算 酵母菌在不同生理状况下基因表现的相关性(即Expression Coherence Score ),如果相关系数高,则可以推测出此种DNAmotif 的特殊组合对基因表达进行调控。
4 、 TRRD (http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/
转录调控区数据库( Transcription RegulatoryRegions Database ) 是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各 种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD 包括五个相关的数据表:TRRDGENES( 包含所有 TRRD 库基因的基本信息和调控 单元信息) ; TRRDSITES( 包括调控因子结合位点的具体信息 ) ; TRRDFACTORS( 包括 TRRD 中与各个位点结合的调控因子的具体信息 ) ; TRRDEXP( 包括对基因表达模式的具体描述 ) ; TRRDBIB( 包括所有注释涉及的参考文献 ) 。 TRRD 主页提供了对这几个数据表的检索服务。 5.JASPAR http://jaspar.genereg.net/
JASPAR 是收集有关转录因子与 DNA 结合位点模体 (motif) 的最全面的公开的数据库 , 该数据库是由哥本哈根大学 (University of Copenhagen) 负责日常数据更新维护工作。 JASPAR 数据库中所包含的数据 , 都经过严格筛选 , 有确切的实验依据 , 通过计算机辅助软件进行整合识别匹配并用生物学手段进行注释。 JASPAR 中的数据是完全公开的 , 用户可以通过主页对数据库进行直接访问。网站在最新一次更新中对 JASPAR_CORE 根据物种分成 5 类 , 即脊椎动物门 (Vertebrata) 、线虫纲 (Nematoda) 、昆虫纲 (Insecta) 、植物界 (Plantae) 和真菌界 (Fungi), 以及根据结构归类 , 用户可以清晰地在主页上找到相应链接。网站还提供了根据序列号 (ID) 、物种等特性进行的搜索 , 还可以直接浏览 数据库的内容。同时 , 用户通过主页可以下载 JASPAR 中的数据到自己的电脑上。与同领域相似数据库相比 , JASPAR 是一个非冗余的数据 库 , 数据来源经过严格筛选 , 并且对所有数据提供免费下载 , 并有相应软件配套使用。但是相对于 TRANSFAC 等其他数据库 , JASPAR 所包 含的数据量比较小 , 用户可以根据需要选择相应的数据库 .

6.HT-SELEX http://ccg.vital-it.ch/htpselex/
7.CisBP: the online library of transcription factors and their DNA binding motifs http://cisbp.ccbr.utoronto.ca/
8. TFCat: The curated catalog of mouse and human transcription factors http://www.tfcat.ca/

9.HumanTFs: The Human Transcription Factors http://humantfs.ccbr.utoronto.ca/

#################################
Related databases
#################################
1.Motif Databases---MEME Suite http://meme-suite.org/db/motifs
2.myHITS:A database and web tools devoted to protein domains https://myhits.isb-sib.ch/
3.CleanEx: A database which provides access to public gene expression data via unique approved gene symbols http://cleanex.vital-it.ch/index.html

参考
科学网—转录因子数据库汇总 - 熊朝亮的博文 http://blog.sciencenet.cn/home.php?mod=space&uid=1509670&do=blog&id=1100882

https://blog.csdn.net/huyongfeijoe/article/details/51098929

https://www.jianshu.com/p/c99d0ec4121e

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,378评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,356评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,702评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,259评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,263评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,036评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,349评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,979评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,469评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,938评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,059评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,703评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,257评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,262评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,501评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,792评论 2 345

推荐阅读更多精彩内容