分类问题建模

本文以python内置数据集iris为例,对分类问题中常用的算法进行总结。

一、导入文件

import pandas as pd
# from sklearn.cross_validation import train_test_split,cross_val_score # sklearn 版本0.17使用
from sklearn.model_selection import train_test_split,cross_val_score # sklearn 版本0.20.2使用
from sklearn import datasets

确定自变量和因变量:

rawfile = datasets.load_iris()
rawfile.feature_names # 获取自变量名称
rawfile.data # 获取自变量取值
rawfile.target # 获取因变量取值,0=setosa,1=versicolor,2=virginica
file = pd.DataFrame(data=rawfile.data, columns=rawfile.feature_names)
x = file
y = rawfile.target
file.head()

数据展示:

    sepal length (cm)   sepal width (cm)    petal length (cm)   petal width (cm)
0   5.1     3.5     1.4     0.2
1   4.9     3.0     1.4     0.2
2   4.7     3.2     1.3     0.2
3   4.6     3.1     1.5     0.2
4   5.0     3.6     1.4     0.2

二、建模

(一)逻辑回归

  1. 原理简述:
    创建逻辑函数,如果有了一个或多个自变量,输出的y值在[0,1]之间,表示概率。如果f(x)的值在0.5以上则为1,在0.5以下,则为0。仅适用于二元分类。
from sklearn.linear_model.logistic import LogisticRegression
model = LogisticRegression()
model.fit(x_train, y_train)

(二)knn近邻

原理简述:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。由此也说明了KNN算法的结果很大程度取决于K的选择。


knn近邻原理图示.png
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
model.fit(x_train, y_train)

三、评估

(一)准确率accuracy

(TP+TN)/(TP+TN+FP+FN)预测对的/所有。
局限性:
1、无法区分假阴和假阳
2、在总体比例一边倒的情况下,准确率并不有效。比如信用卡中的虚假交易很少,但是大部分正常交易都能预测为正常交易,很高的准确率并不能说明虚假交易预测很好。这时需要结合看精确率和召回率,尤其要重点关注不同y标签的精确率和召回率,具体看是预测哪个标签时经常出错:比如体检更关心假阳而非假音。但是准确率无法看出来。

# 方法一:
print(model.score(x_test, y_test))  # 在对模型训练后,输入测试集的x,以及正确的y
# 方法二:
from sklearn import metrics
print('accuracy_score:', metrics.accuracy_score(y_test, y_test_model))  # 输入正确的y & 模型训练出来的y

(二)精确率precision

TP/(TP+FP) 表示测试集中预测为正的样本中,有多少真的是正。猜测将标签中为1的值返回。

print('precision_score:', metrics.precision_score(y_test, y_test_model))

(三)召回率recall

TP/(TP+FN) 表示测试集中真正为正的样本中,有多少被正确预测了。猜测将标签中为1的值返回。

print('recall_score:', metrics.recall_score(y_test, y_test_model))

(四)f1值

综合评价指标(F1 measure)是精确率和召回率的调和均值(harmonic mean),或加权平均值,也称为F-measure或fF-score。

print('f1:', metrics.f1_score(y_test, y_test_model))

评估报告

精确率+召回率+f1值+标签训练结果出现次数

print(classification_report(y_test, y_test_model))  # 把生存规定为正类,和把没有生存规定为正类,计算出来的精确率和召回率是不一样的。但是准确率的计算都相同。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容

  • 爱因斯坦小时候是个十分贪玩的孩子。每天,他不是在大街上闲逛,就是和周围的一群孩子到庄园或河边玩耍,像个十足的少年嬉...
    梅恋与家共成长阅读 216评论 0 2
  • 说来惭愧,最近带血营销人罗尔出书、找人代笔,凤姐团队月入千万等事让我的内心颇不平静。 将近年关,除了休寒假的学生外...
    司马笔下阅读 420评论 0 0