如果不存在线性关系时,我们可以通过对数变换。
对数变换的目的就是将非线性问题转换为线性问题,这样就能够用线性回归相关理论和方法来解决非线性的问题。
二分类:知否两个分类状态,“是”“否”。
多分类:有多个类别的状态:高、中、低。。。
我们主要学习二分类Logistics回归,也叫二元类Logistic回归。因变量只有两个分类值,1或0,也就是是和否。
在模型预测中,我们不是直接得到分类纸1或0,而是以发生的可能性大小来衡量,即得到一个介于0到1之间的概率值P,利用概率值P来预测因变量出现某个状态的可能。
0<=P<0.5 不发生,否
0.5<=P<=1 发生,是
Logistic回归方程表达式:
logit(P)=b0+b1X1+b2X2+...+bnXn
经过对数变换后,自变量成线性关系,而且b0.b1.b2...bn就是变换之后的回归系数。
Logsitic实践
注意点:一定要选择【保存】--“预测值-概率”,目的是计算出每个概率预测值。
另需要保存模型,方便后续预测使用。
这张表就是个介绍,大体一看就行。
对于“块0:初始块”,可以不关注,因为这个步骤拟合的模型只有常数项,不包含任何自变量。
对于“块1:方法=输入”:
这个结果显示了新拟合的模型与上一个步骤拟合的只有常数项的模型的结果对比,是否具有显著差异。
我们发现最后一列的显著性均小于0.01,说明新拟合的包含三个变量的模型结果与上一个步骤拟合的只有常数项的模型具有极其显著的统计学差异。
“-2对数似然”可理解为线性回归中的R方,数值越小,拟合效果越好。此处没有多个模型对比,仅供参考
未续约的正确预测数:300
续约的正确预测数:797
所以我们得出以下结论:
1)对“未续约”这个状态的预测率是54.7%;
2)对“续约”这个状态的预测率是83.7%;
3)总体来说Logistic回归分析模型有73.1%的准确率来判断状态结果。
这是最重要的一个表;
Logit(P)=-2.287+0.099*注册时长+0.014*营业收入-0.184*成本
logsitic回归的检验统计量为瓦尔德,用来判断这个变量是否应该包含在模型中,判断依据是显著性P,我们发现三个变量的P值都小于0.01,都具有显著的统计学意义,因此三个变量都应该包含在模型中。
下面是预测:
【实用程序】--【评分向导】