视频B站视频
笔记：公众号：生信小知识+生信菜鸟团
学习思路：机器学习——小洁简书TCGA笔记——生信技能树线上视频

一、基础简介

概念：机器学习主要思想

一般来讲, 机器学习就是进行预测和分类。原始数据称为训练集（training data）,测试集来评估机器学习方法。

偏差-方差权衡：

我们记得绿色曲线在拟合训练集的时候非常好，但是当我们做机器学习时，我们更感兴趣的是绿色曲线能利用新的数据做出多好的预测。换句话说, 虽然绿色曲线比黑色曲线更拟合训练集，然而黑线在用测试集进行预测速度方面做得更好。所以我们会选择黑线！！

二、Cross validation

参考StatQuest学习笔记22——交叉验证
例子：

根据胸痛、血液循环、体重预测心脏疾病；当我们遇到一个新的病人时，检测这些指标（左侧）来预测是否得了心脏病（右侧），如下：
此时，我们就面临一个问题，使用哪种方法来预测这个新病人是否得有心脏病？

可用的机器学习方法：

Logistic回归、k近邻算法、支持向量机(SVM）等

但是那种方法适合我们呢？交叉验证可以帮助我们比较不同的机器学习方法。

对于这个新病人数据，我们需要做2件事情，如下所示：

第一，估计机器学习方法的参数。例如对于逻辑回归来说，我们需要使用一些数据(已有病人）来估计这个曲线的形状。用机器学习的术语来说，用于估计参数的过程叫做“训练算法”（training the algorithm）。
第二件事情就是，我们要评估一下所选的这个方法工作起来到底行不行。也就是说，我们需要评估一下，找出的这条曲线能否对新的数据进行很好地归类。用机器学习的术语来讲，评估一个方法的好坏叫做“检验算法”（testing the algorithm）。
Cross validation思想

最不好的方法是把全部数据拿去构建模型，因为就没有数据用于评估当前算法的优劣。如果此时是使用全部数据再去评估当前算法的优劣也不是太好，因为无法知道当前模型对未知数据的预测能力如何。比较好的好的方法是将数据均分为多份，一部分用于训练，一部分用于测试。比如将数据分为4等份，其中三份用于建模，一份用于测试。

但是，我们是怎么知道把数据分为前75%和后25%是一种最好的方法呢；相比较再去寻找方法去判断最佳的数据拆分方案，不如直接将所有的拆分方案都计算一遍，然后再汇总结果。如下图所示，相应的测试结果见图中标识，最终合并结果可以知道有16个测试结果分类正确，8个测试结果分类错误。

最终，每一部分数据都用于了检验，然后我们就可以比较不同的算法检验的结果，如下所示：
结果表明在本次数据中，使用支持向量机（SVM）的方法是最好的。

上述过程中，使用的交叉验证方法由于将数据分成了4份，因此又叫做4折交叉验证。这种方法属于一种叫做S折交叉验证（S-Folder Cross Validation）的方法，S是分成的数据份数。

还有一些极端情况，比如只留一个样本作为测试，剩余的所有样本作为训练数据，这种方法叫做留一交叉验证（Leave-one-out Cross Validation），这种情况一般是在数据量很少的时候采用，如50个以下。

三、混淆矩阵(Confusion Matrix)

例子：

我们有一些临床测量, 比如胸痛, 血液循环情况, 动脉阻塞以及体重，我们想用机器学习的方法来预测是否有人会发展出心脏病：
为此, 我们可以使用 Logistic 回归或 k-近邻或随机森等，这将是使用交叉验证的绝佳机会
。然后我们用训练集来训练所有我们感兴趣的方法，得到拟合后的结果后然后基于测试集来测试每个方法。
现在我们需要总结每种方法在测试集上的表现 (预测准确与否)，一种方法是为每个方法创建一个混淆矩阵。

步骤：

1.数据：数据分为训练集+测试数，用训练集来训练我们感兴趣的方法，基于测试集来测试每个方法；

2.混淆矩阵：总结每种方法在测试机上的表现

Logistic回顾分析和决策树差不多时;需要用其他指标来衡量：如：

让我们来看一个更复杂的矩阵，这是一组新的数据，现在的问题是, 基于人们对下列电影的看法：
如《侏罗纪公园 3》,《奔跑·脱单》, 《走出寒冷》,《Out Kold》,《天降神兵》，我们能用机器学习的方法来预测他们最喜欢的电影吗?
如果可供选择的最喜欢的电影只有3个：《矮人怪2》, 《东京残酷警察》, 《酷得像冰》，那么混淆矩阵将有三行三列：

四、敏感度和特异性

概念：敏感度和特异性

根据你的数据模型达到的目的：通过敏感度和特异性选择不同机器学习方法。

五、偏差和方差（Bias and Variance）

概念：方差与偏差

偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力；方差度量了同样大小的数据集的变动（即样本数相同的不同数据集）所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

两者往往此消彼长。

六+七、ROC 和 AUC

ROC and AUC分类器原理

概念：

ROC在R中实现：

#first thing:load pROC,it will draw ROC graphs for us.
#install.packages("pROC")
library(pROC)

# a Random Forest is a way to claasifyy samples 
#and we can change the threshold that we use to make those decisions
library(randomForest)
set.seed(420)
num.samples = 100
weight=sort(rnorm(n=num.samples,mean = 172,sd=29)) #rnorm generate 100random values
#classify
obese <- ifelse(test = (runif(n=num.samples)<(rank(weight)/100)),
                        yes=1,no=0)
obese
plot(x=weight,y=obese)
#glm to fit a logistic regression curve
glm.fit=glm(obese~weight,family = binomial)
lines(weight,glm.fit$fitted.values)
#ROC 
par(pty="s")#"s"ROC图修改为square
#roc(obese,glm.fit$fitted.values,plot = TRUE,legacy.axes=TRUE)#plot = TRUE做出ROC图
#legacy.axes=TRUE 横坐标：1-Specificity
roc(obese,glm.fit$fitted.values,plot = TRUE,legacy.axes=TRUE,percent=TRUE,
    #修改坐标轴名称
    xlab="False Positive Percentage",ylab="True Positive Percentage",
    col="#377eb8",lwd=4,print.auc=TRUE,print.auc.x=45,partial.auc=c(100,90),
    auc.polygon=TRUE,auc.polygon.col="#377eb822")
roc.info=roc(obese,glm.fit$fitted.values,plot = TRUE,legacy.axes=TRUE)#plot = TRUE做出ROC图

#Partial AUC:when you want to focus on part of the ROC curve that only allows for a small number of False Positive
roc.df=data.frame(
  tpp=roc.info$sensitivities*100,
  fpp=(1- roc.info$specificities)*100,
  thresholds=roc.info$thresholds
)
#悬着范围
roc.df[roc.df$tpp>60 & roc.df$tpp<80,]


##比较两个：
rf.model=randomForest(factor(obese)~weight)
roc(obese,glm.fit$fitted.values,plot = TRUE,legacy.axes=TRUE,percent=TRUE,
    #修改坐标轴名称
    xlab="False Positive Percentage",ylab="True Positive Percentage",
    col="#377eb8",lwd=4,print.auc=TRUE)
plot.roc(obese,rf.model$votes[,1],percent=TRUE,col="#4daf4a",lwd=4,
        print.auc=TRUE,add=TRUE,print.auc.y=40)
legend("bottomright",legend = c("Lgisitic","Random Forest"),
         col=c("#377eb8","#4daf4a"),lwd=4)
#plot.roc 相似于 roc
#add=TRUE 将两图加在一起
#print.auc.y=40 两者AUC错开

Setting levels: control = 0, case = 1 Setting direction: controls < cases Call: roc.default(response = obese, predictor = glm.fit$fitted.values, plot = TRUE) Data: glm.fit$fitted.values in 45 controls (obese 0) < 55 cases (obese 1). Area under the curve: 0.8291

八、最小二乘法

九+十、比率、比率对数 (Odds and log Odds）及比率比、比率比对数

比率不是概率：
比率(Odds)：是事件发生：事件不发生
例子：球队8场：win 5 and loss 3，所以赢球比率为5：3=1.7，概率为5：8；因此可以用概率反推处比率=5/8 ：3/8=5/3
比率Odds=p/(1-p) p表示概率
Log(Odds)是为了让比率更好的统计，例子：Log(1/6)和Log6在坐标轴上是对对称的。Log(Odds)=Log（p/(1-p) ）是logistic回归分析的基础。

用Fisher's Exact Test 和超几何分布进行富集分析

比率比和比率比对数告诉我们两个事物之间是否有强或弱的关系
例子：比如有突变的基因是否会增加患癌症的比率

验证两者之间关系是否有统计学差异时，可以根据自己的领域选择以下三种：

十一、逻辑回归（Logistic Regression）

Logistic回归区别于Liner Regression，Logistic perdicts whether something is Ture or False.
it is usually used for classification
Logistic Regression can work with continuous data and discrete data.

参考生信菜鸟团系列笔记：

StatQuest生物统计学专题 - logistic回归

StatQuest机器学习

StatQuest机器学习

一、基础简介

二、Cross validation

三、混淆矩阵(Confusion Matrix)

四、敏感度和特异性

五、偏差和方差（Bias and Variance）

六+七、ROC 和 AUC

ROC在R中实现：

八、最小二乘法

九+十、比率、比率对数 (Odds and log Odds）及比率比、比率比对数

用Fisher's Exact Test 和超几何分布进行富集分析

十一、逻辑回归（Logistic Regression）

参考生信菜鸟团系列笔记：

StatQuest机器学习

一、基础简介

二、Cross validation

三、混淆矩阵(Confusion Matrix)

四、敏感度和特异性

五、偏差和方差（Bias and Variance）

六+七、ROC 和 AUC

ROC在R中实现：

八、最小二乘法

九+十、比率、比率对数 (Odds and log Odds）及 比率比、比率比对数

用Fisher's Exact Test 和超几何分布进行富集分析

十一、逻辑回归（Logistic Regression）

参考生信菜鸟团系列笔记：

九+十、比率、比率对数 (Odds and log Odds）及比率比、比率比对数