混淆矩阵、精准率、召回率...总是记不清楚,手绘加深记忆。
一、问题的起点:解决什么问题
解决分类(Classification)准确性问题,相对于回归(Regression)
插播:分类与回归的区别
1.本质上都是画一根线,做数据拟合,让计算机“造”出一个函数(对一系列样本(x,y)构建f(x)-->y的映射),让他能和自然界中客观存在的未知函数尽可能地吻合。这也是有监督学习的本质。
2.区别在于输出,即输出的连续与否。
(1)回归画线是为了找到最优的拟合线
房价上升下降的影响因素有大小、地段、朝向、学区......(无尽细分)
(2)分类是为了画线区分两边
云青青兮欲雨(云青青-->雨,雨是具体的天气状态子集)
3.数学上的实际过程:把线性函数加一层映射, 映射到空间, 然后设置一个阈值,超过该值取分类1 ,否则取分类 0。
拟合y=ax+b这条直线,使得这条直线尽可能地将原始数据中的两个类别正确的划分开。
至于为什么要使用sigmoid,需要展开。简单的结论是,因为作为广义线性模型(GLM)中的一类,逻辑回归的连接函数的 canonical 形式就是 sigmoid函数。(不知道在说啥,下下下回分解)
二、 描述标准:有猜对/猜错两种结果,那么实际和猜的情况可以花式组合
1、混淆矩阵
正样本、负样本使用统计上的显著(阳),不显著(阴)更好理解
2、正样本中预测正确的比例--准确率 (查准率) Precision--预测的违约贷款中,真的违约有多少。(换言之错杀了多少)
3、预测正确的正样本占所有正样本的比例--召回率 (查全率) Recall--所有违约中有多少被预测到了。(漏抓了多少)
(吐槽一下精准、召回两种翻译,查准、查全好理解多了)
4、宁可错杀一千vs不错怪一个好人?打架了怎么办
利用Recall和Precision的调和平均值作为衡量标准
想倾向于某一个?加权调和平均值
三、想手工调一下,有没有办法观察模型好坏随阈值的变化趋势呢?
ROC出场
ROC\AUC\KS下回分解
(滑了二十公里腿酸到睡不着也写不动)