0.前情回顾
关于聚类和亚型,前面已经介绍了一致性聚类和NMF:
(两个链接)
1.优秀的CancerSubtypes
就如TCGA差异、生存、富集一套打包下来的R包GDCRNAtools,今天这个包也是妥妥的集才华与美貌于一身,多种聚类方法、多种feature筛选方法、多种聚类方法、多种结果验证方法,应有尽有了。
文章链接:
https://academic.oup.com/bioinformatics/article/33/19/3131/3866880
官方教程:
http://bioconductor.org/packages/release/bioc/vignettes/CancerSubtypes/inst/doc/CancerSubtypes-vignette.html
特点是操作简单,代码的集成化程度比较高。而且多种算法使用了相同的输入数据,也方便比较聚类的结果。
2.能干点啥
我就列个提纲好了。作者的示例代码写的非常好,看上面链接里的代码即可。
3.多种算法
各种算法的对比和介绍在作者写的文章里有介绍,点进去看2-2即可:
https://academic.oup.com/bioinformatics/article/33/19/3131/3866880
CC和NMF是对单一数据来说的,它的数据可以只是一个表达矩阵,也可以是两个,例如示例里面的:
GBM=list(GeneExp=GeneExp,miRNAExp=miRNAExp)
- 即把基因的表达矩阵和miRNA的表达矩阵一起作为了输入。
而后面的iCluster、SNF、SNF-CC和WSNF则只用于多个基因组数据分析(这里的基因组数据特指基因表达矩阵、miRNA表达矩阵和甲基化数据)。 - SNF+CC两种方法的结合是这个R包新提出的。
- WSNF提到的基因权重,是以miRNA-TF-mRNA 网络为依据的,专业性大大的有咯。