2020年3月美国马里兰州巴尔的约翰霍普金斯大学彭博公共卫生学院动物实验替代中心(CAAT),德国 University of Konstanz发表了[Maertens A]等学者的研究成果,用TCGA数据说明基于注释方法的局限性。
摘要
肿瘤是一种研究相对较多的疾病,尽管数十年来一直受到广泛关注,但我们使用TCGA的数据证明,有很多与肿瘤有关的研究相对较少。这些基因很可能会被数据分析方法(例如富集分析)所遗漏,这些数据分析渠道完全依赖于注释来理解生物学功能。没有迹象表明研究的数量(由出版物数量指示)与任何具有基因显着性的客观指标相关。此外,这些基因并不是随机缺失的,而是反映出我们关于基因的信息是有偏见的:研究不足的基因更有可能是灵长类特异性的,而孟德尔遗传模式则不太可能出现,并且它们倾向于聚集在一些生物过程而不是其他。尽管这可能既反映了技术局限性,又反映了众所周知的基因倾向于引起研究界更多兴趣的事实,但是由于缺乏一致的努力来无偏见地研究基因,许多基因(和生物学过程)将保持不透明。