回归与分类
回归问题和分类问题在本质上是一样的,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。分类问题也叫离散变量预测,其输出是输入数据所对应的类别,是一种定性输出。而回归问题也叫连续变量预测,其输出是由输入数据推断出来的一个实数值,是一种定量输出。
回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者是因变量,后者是自变量。
回归分析是一种数学模型。当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。通常假定随机误差的均值为0,方差为σ^2(σ^2﹥0,σ^2与X的值无关),若进一步假定随机误差遵从正态分布,就叫做正态线性模型。
一般的,若有k个自变量和1个因变量,则因变量的值分为两部分:一部分由自变量影响,即表示为它的函数,函数形式已知且含有未知参数;另一部分由其他的未考虑因素和随机性影响,即随机误差。
当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型。当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
回归分析的主要内容为:
1. 从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数,通常用最小二乘法;
2. 检验这些关系式的可信任程度;
3. 在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量,通常用逐步回归、向前回归和向后回归等方法;
4. 利用所求的关系式对某一过程进行预测或控制。
回归分析的应用非常广泛,统计软件包的使用可以让各种算法更加方便。
回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。下面我们以线性回归为例来进一步说明回归算法。
线性回归
实质上,回归算法是先建立一个假设的模型,即一个函数,但是函数中含有未知的参数,通过学习,可以估计出这些未知的参数,最后得到一个完事的函数。把一组数据作为函数的输入,函数的输出便是预测值。而线性回归是回归的一种,它假设特征和结果都满足线性,即不大于一次方。如果线性回归分析中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
函数介绍
LinearRegression实现了普通最小二乘线性回归的估计器,来自sklearn.linear_model包。创建方法如下:
lr = LinearRegression()
常用参数解释:
fit_intercept: boolean类型,默认True,可选。表示是否计算该模型的截距。