2-3节 k-近邻算法-使用 Matplotlib 画二维散点图|优化约会网站的配对效果项目|机器学习实战-学习笔记

文章原创,最近更新:2018-08-9

本章节的主要内容是:
重点介绍项目案例1: 优化约会网站的配对效果中的分析数据:使用 Matplotlib 画二维散点图

1.KNN项目案例介绍:

项目案例1:

优化约会网站的配对效果

项目概述:

1)海伦使用约会网站寻找约会对象。经过一段时间之后,她发现曾交往过三种类型的人: 不喜欢的人、魅力一般的人、 极具魅力的人。
2)她希望: 1. 工作日与魅力一般的人约会 2. 周末与极具魅力的人约会 3. 不喜欢的人则直接排除掉。现在她收集到了一些约会网站未曾记录的数据信息,这更有助于匹配对象的归类。

开发流程:
  • 收集数据:提供文本文件
  • 准备数据:使用 Python 解析文本文件
  • 分析数据:使用 Matplotlib 画二维散点图
  • 训练算法:此步骤不适用于 k-近邻算法
  • 测试算法:使用海伦提供的部分数据作为测试样本。
    测试样本和非测试样本的区别在于:测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误。
  • 使用算法:产生简单的命令行程序,然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。
数据集介绍

海伦把这些约会对象的数据存放在文本文件 datingTestSet2.txt (数据来源于《机器学习实战》第二章 k邻近算法)中,总共有 1000 行。

本文使用的数据主要包含以下三种特征:每年获得的飞行常客里程数,玩视频游戏所耗时间百分比,每周消费的冰淇淋公升数。其中分类结果作为文件的第四列,并且只有3、2、1三种分类值。datingTestSet2.csv文件格式如下所示:

飞行里程数 游戏耗时百分比 冰淇淋公升数 分类结果
40920 8.326976 0.953952 3
14488 7.153469 1.673904 2
26052 1.441871 0.805124 1

数据在datingTestSet2.txt文件中的格式如下所示:


2.使用 Matplotlib 画二维散点图

使用Matplotlib创建散点图,相关代码如下:

import numpy as np
import matplotlib
import matplotlib.pyplot as plt

fig=plt.figure()
ax=fig.add_subplot(1,1,1)
datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*np.array(datingLabels),15.0*np.array(datingLabels))
plt.show()

输出结果如下:



上图利用datingLabels存储的类标签属性,在散点图上绘制了色彩不等、尺寸不同的点。因而基本上可以从图中看到数据点所属三个样本分类的区域轮廓。为了得到更好的效果,采用datingDataMat矩阵的属性列1和2展示数据,并以红色的'*'表示类标签1、蓝色的'o'表示表示类标签2、绿色的'+'表示类标签3,修改参数如下:

import kNN
import operator
import matplotlib
import matplotlib.pyplot  as plt
import numpy as np
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\SimSun.ttc", size=14)
group,labels=kNN.createDataSet()
fig=plt.figure()
ax=fig.add_subplot(1,1,1)
datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
#ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*np.array(datingLabels),15.0*np.array(datingLabels))
datingLabels = np.array(datingLabels)
idx_1 = np.where(datingLabels==1)
p1 = ax.scatter(datingDataMat[idx_1,0],datingDataMat[idx_1,1],marker = '*',color = 'r',label='1',s=10)
idx_2 = np.where(datingLabels==2)
p2 = ax.scatter(datingDataMat[idx_2,0],datingDataMat[idx_2,1],marker = 'o',color ='g',label='2',s=20)
idx_3 = np.where(datingLabels==3)
p3 = ax.scatter(datingDataMat[idx_3,0],datingDataMat[idx_3,1],marker = '+',color ='b',label='3',s=30)
plt.xlabel("每年获取的飞行里程数",fontproperties=font)
plt.ylabel("玩视频游戏所消耗的事件百分比",fontproperties=font)
ax.legend((p1,p2,p3),("不喜欢","魅力一般","极具魅力"),loc=2,prop=font)
plt.show()

输出结果如下:


3.相关知识点

知识点1:plt.figure()

figure概念的理解,具体如下图:
我们先理清 figure的概念。用画板和画纸来做比喻的话,figure就好像是画板,是画纸的载体,但具体画画等操作是在画纸上完成的。在pyplot中,画纸的概念对应的就是Axes/Subplot。

figure语法说明,具体如下:
figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True)

  • num:图像编号或名称,数字为编号 ,字符串为名称
  • figsize:指定figure的宽和高,单位为英寸;
  • dpi参数指定绘图对象的分辨率,即每英寸多少个像素,缺省值为80
  • facecolor:背景颜色
  • edgecolor:边框颜色
  • frameon:是否显示边框

具体小案例如下:
案例1

import matplotlib.pyplot as plt
 
fig = plt.figure(figsize=(4,3),facecolor="blue")
plt.subplot(221)  
plt.show()

输出结果如下:


案例2

import matplotlib.pyplot as plt
 
fig = plt.figure(facecolor="blue")
plt.subplot(221)  
plt.show()

输出结果如下:


知识点2:画子图add_subplot新增子图

首先要理解一些概念问题,具体如下:

  • 子图:就是在一张figure里面生成多张子图。
  • Matplotlib对象简介
    • FigureCanvas:画布
    • Figure:图
    • Axes:坐标轴(实际画图的地方)

add_subplot的参数与subplots的相似

subplot语法,具体如下:
subplot(nrows,ncols,sharex,sharey,subplot_kw,**fig_kw)


备注:subplot可以规划figure划分为n个子图,但每条subplot命令只会创建一个子图 。学习参考链接如下:matplotlib命令与格式:图像(figure)与子区域(axes)布局与规划

案例1:add_subplot()

import numpy as np
import matplotlib.pyplot as plt
 
x = np.arange(0, 100)
 
fig = plt.figure()
 
ax1 = fig.add_subplot(221)
ax1.plot(x, x)
 
ax2 = fig.add_subplot(222)
ax2.plot(x, -x)
 
ax3 = fig.add_subplot(223)
ax3.plot(x, x ** 2)
 
ax4 = fig.add_subplot(224)
ax4.plot(x, np.log(x))
 
plt.show()

输出结果:


案例2:subplot()

import numpy as np
import matplotlib.pyplot as plt
 
x = np.arange(0, 100)
 
plt.subplot(221)
plt.plot(x, x)
 
plt.subplot(222)
plt.plot(x, -x)
 
plt.subplot(223)
plt.plot(x, x ** 2)
 
plt.subplot(224)
plt.plot(x, np.log(x))
 
plt.show()

输出结果如下:


add_subplot()与subplot()的区别:具体可参见python matplotlib中axes与axis的区别?

知识点3:scatter(x, y, 点的大小, 颜色,标记)

matplotlib模块中scatter函数语法及参数含义:
plt.scatter(x, y, s=20,
c=None, marker='o',
cmap=None, norm=None,
vmin=None, vmax=None,
alpha=None, linewidths=None,
edgecolors=None)

  • x:指定散点图的x轴数据;
  • y:指定散点图的y轴数据;
  • s:指定散点图点的大小,默认为20,通过传入新的变量,实现气泡图的绘制;
  • c:指定散点图点的颜色,默认为蓝色;
  • marker:指定散点图点的形状,默认为圆形;
  • cmap:指定色图,只有当c参数是一个浮点型的数组的时候才起作用;
  • norm:设置数据亮度,标准化到0~1之间,使用该参数仍需要c为浮点型的数组;
  • vmin、vmax:亮度设置,与norm类似,如果使用了norm则该参数无效;
  • alpha:设置散点的透明度;
  • linewidths:设置散点边界线的宽度;
  • edgecolors:设置散点边界线的颜色;
    学习参考链接:# 从零开始学Python【15】--matplotlib(散点图)

    scatter(x, y, 点的大小, 颜色,标记),这是最主要的几个用法,如果括号中不写s= c=则按默认顺序,写了则按规定的来,不考虑顺序.
    案例1
    具体小案例如下:
import matplotlib.pyplot as plt
 
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter([1,2,3,4],[2,4,6,8],[10,20,30,40],['r', 'b','y','k'])   #x,y,大小,颜色,颜色也可以用随意的数字代替,比如[1,2,3,4]表示不同颜色即可,具体怎么设置想要的颜色后续再研究
plt.show()

输出结果如下:


案例2
根据文中的源代码案例,具体如下:

  1. scatter(x, y)
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*np.array(datingLabels),1

显示的结果如下:


总结:
点的大小一样,未采用色彩或其他的记号来标记不同样本分类,不能很好地理解数据信息.

  1. scatter(x, y, 点的大小)
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*np.array(datingLabels))

总结:
点的大小不一样,未采用色彩或其他的记号来标记不同样本分类,不能很好地理解数据信息.

  1. scatter(x, y, 点的大小, 颜色)
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*np.array(datingLabels),15.0*np.array(datingLabels)) #参数分别代表x,y

输出结果如下:



点的大小不一样,采用色彩或其他的记号来标记不同样本分类,能很好地理解数据信息.

知识点4:plt.xlabel()与plt.ylabel()

xlabel、ylabel:分别设置X、Y轴的标题文字。

知识点5:legend()

legend:显示图示,即图中表示每条曲线的标签(label)和样式的矩形区域。
参考链接:matplotlib命令与格式:图例legend语法及设置

legend语法参数如下: matplotlib.pyplot.legend(*args, **kwargs)

  • loc:图例所有figure位置
    plt.legend(loc='lower left')
loc相关参数
  • prop:字体参数

知识点6:np.where()

numpy.where(condition[, x, y])

  • 这里x,y是可选参数,condition是条件,这三个输入参数都是array_like的形式;而且三者的维度相同
  • 当conditon的某个位置的为true时,输出x的对应位置的元素,否则选择y对应位置的元素;
  • 如果只有参数condition,则函数返回为true的元素的坐标位置信息;
    学习参考链接:怎么理解numpy的where()?

而本章的源代码就是第二种情况,具体小案例如下:
np.where(x)输出的是九个不为0的数(为真的数的坐标,第一个array[]是横坐标,第二个array[]是纵坐标.

x=np.array([[9,1,2],[3,4,5],[6,7,8]])

x
Out[85]: 
array([[9, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

np.where(x)
Out[86]: 
(array([0, 0, 0, 1, 1, 1, 2, 2, 2], dtype=int64),
 array([0, 1, 2, 0, 1, 2, 0, 1, 2], dtype=int64))
x=np.array([[9,1,2],[3,4,5],[6,7,8]])

x[np.where(x)]
Out[88]: array([9, 1, 2, 3, 4, 5, 6, 7, 8])

知识点7:Matplotlib支持中文的方法

Matplotlib默认不支持中文,需要在在python脚本的开头加上下面的代码:

from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\SimSun.ttc", size=14)

上面从matplotlib.font_manager字体管理模块代入FontProperties,然后设置字体属性,FontProperties()设置的是Windows系统自带的宋体。关于Windows字体列表,可以查阅WIKI Windows字体列表size设置的是字体的大小。

参考链接:编码训练:Python title()中文标题支持

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容