逻辑回归(Logistic Regression)
用于处理分类问题
Sigmoid Function / Logistic Function 逻辑函数:
将定义逻辑回归的预测函数为:
图像为:
注:1、0.5可以作为分类的边界
2、当时,;当时,
3、当时,,当时,
决策边界:中x所决定的边界,,;,。y为标签
代价函数:
当时,;当时,
当时,;当时,
代价函数可改写为如下形式:
求解,一般使用梯度下降法
:
则因为
, ,
所以
所以
一般用于处理二分类问题,对于多分类问题,可以将其转化为二分类问题。
正则化:
为L1正则化, 为L2正则化
对于L2求导得:
正确率、召回率、F1指标
正确率与召回率(Precision && Recall)是广泛应用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。
一般来说,正确率就是检索出来的条目有多少是正确的;召回率就是所有的正确条目有多少被检索出来了。
,用于综合反映整体的指标。
三者的取值都在0-1之间,数值越接近1,效果越好。
eg:共1400条鲤鱼,300虾,300王八,要捕鲤鱼,实际上捕了700鲤鱼,200虾,100王八
则正确率:700 / (700 + 200 + 100)= 70%
召回率:700 / 1400 = 50%
F1值 = 70% * 50% * 2 / (70% + 50%) = 58.3%
正常状况下,Precision越高越好,同时Recall也越高踢越好,但某些情况下,二者矛盾,不同场合,要判断哪一个比较高更好
,当时为F1指标。
最邻近规则分类(KNN)
为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数k。
计算未知实例与所有已知实例的距离
选择最近k个已知实例
根据少数服从多数的投票法则(majority-voting),让未知实例归类为k个最邻近样本中最多数的类别
距离判断一般为欧氏距离(欧几里得距离):,如
其他距离衡量:余弦值距离(cos),相关度(correlation),曼哈顿距离(Manhattan distance)
k值的选取也会影响,一般取奇数
算法缺点:算法复杂度较高(需要比较所有已知实例与要分类的实例)
当其样本分布不平衡时,比如其中一类样本过大占主导的时候,新的未知实例容易被归类为这个主导样本,因为这类样本实例的数量过大,但这个新的未知实例实际并没有接近目标样本。