数据库下载地址: http://sites.google.com/site/jpopgen/dbNSFP
tips:国内网站下载不了,可通过annovar软件的脚本下载该数据库。
参考文章:
1.dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their Functional Predictions
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3145015/
2.dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional Predictions and Annotations
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/
3.dbNSFP v3.0: A One-Stop Database of Functional Predictions and Annotations for Human Non-synonymous and Splice Site SNVs
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4752381/
数据库具体内容详解:
(变异对蛋白序列的影响。rankscore范围是[0,1],是一个dbNSFP内部算法间彼此比较的一个权重得分。)
补充1:
参考文章中提到的ROC曲线。
ROC曲线(receiver operating characteristic curve,受试者工作特征曲线)
以FPR(False Positive Rate)为x轴,TPR(True Positive Rate)为y轴画图。
TPR即为灵敏度(sensitivity),FPR即为(1-特异度)(specificity)。
真阳性率(TPR) :TPR = TP / P = TP / (TP+FN)
假阳性率(FPR) :FPR = FP / N = FP / (FP + TN)
AUC:ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大越好。
AUC值越大的分类器,正确率越高。
补充2:
Pubvar数据库
变异位点最全
Pubvar计划将所有公开发布的人类基因变异收集在一个数据库中。目前Pubvar已经收录了NCBI dbSNP、千人基因组、ExAC、GnomAD、HRC、HapMap、dbNSFP、CONVERGE和NCBI ClinVar等多个数据库中的变异,共包含约4.7亿个变异。用户通过简单的搜索就能获取一个基因内的所有变异,不需要再花费大量精力在不同数据库中检索并整理这些信息。
变异注释最全
Pubvar将一个变异的各种注释和疾病相关信息整合到一个web页面上,用户在一个web页面上就能获取一个变异的完整注释信息。目前Pubvar整合的注释信息有:
千人基因组、ExAC和gnomAD等数据库中的变异频率信息;
dbNSFP数据库中十多个软件的有害性预测结果;
UCSC数据库中变异位点的保守性;
ClinVar数据库中变异的相关疾病和致病性分类;
InterVar软件根据ACMG指南给出的临床意义分类;
氨基酸变化的物理化学特征。
下一步Pubvar将整合更多的疾病及药物相关的数据,为生物医学科研人员和临床医生开展人类遗传变异功能研究提供更详细的数据支持。但Pubvar仅限于科研用途,所有生物医学科研人员和临床医生都可以免费使用。
Pubvar的网址为https://www.pubvar.com
需申请账号,申请流程很简单。