第十章 降维与度量学习

:目录



10.1 k近邻学习(简称kNN)

kNN的泛化错误率


式(10.2)的推导

公式推导:https://blog.csdn.net/jbb0523/article/details/89052490 注解中第10章的内容
由式(10.2)可知:最近邻分类器虽然简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍



10.2 低维嵌入

维数灾难

降维

经典降维算法:MDS

目标:获得样本在低维空间的表示

前提:在低维空间样本之间的距离与在原始空间样本之间的距离相等

具体:


式(10.4)~式(10.6)的推导:

MDS算法的描述:

线性降维与降维效果评估


10.3 主成分分析(简称PCA)

PCA引入


一个例子(二维降为一维)

参考:https://www.bilibili.com/video/av90308355/?spm_id_from=333.788.videocard.0


PCA算法

另一角度

PCA的优点



10.4 核化线性降维(简称KPCA)

由于西瓜书上关于KPCA的章节我看不懂,下面有关KPCA的内容是参考:视频https://www.bilibili.com/video/av16722186?t=4361,视频直接从几何角度讲解了PCA和KPCA

为什么要用KPCA?

KPCA的基本定义

KPCA:基于核技巧对线性降维方法进行“核化”

具体过程(一个例子)


上面罗里吧嗦的是PCA的推导,把它写进去是因为上面有些结论后面要用,进入正题KPCA



10.5 流形学习


流形学习的2个代表:Isomap和LLE

参考:https://blog.csdn.net/zhulingchen/article/details/2123129?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

Isomap



LLE

基本思想

具体过程



10.6 度量学习

基本出发点

距离度量表达形式


总结:

[近邻成分分析部分由于看不太懂,直接略过了,之后再补上]


Python 代码实现

PCA

fit(X): 用数据X来训练PCA模型。

fit_transform(X):用X来训练PCA模型,同时返回降维后的数据。

n_components_:返回所保留的特征个数。

explained_variance_ratio_:返回所保留各个特征的方差百分比。

用法参考:sklearn中PCA的使用方法 - 简书

运行结果

由运行结果可知,保留的两个特征可以99.11%的表达整个数据集,因此可以降到二维

PCA还可应用于人脸识别

PCA人脸识别操作流程:训练样本→特征提取→构造特征空间→投影计算。

详细请参考:PCA人脸识别详解——初学者必看_网络_xiaomage_gf的博客-CSDN博客

由于我安装cv2库的时候,一直一直一直没有安装成功,死在了第一步上,所以就运行不了代码,害,本菜鸟再回去琢磨琢磨

LLE

matplotlib.mplot3d:三维绘图工具包

np.floor(): 返回不大于输入参数的最大整数。 即对于输入值 x ,将返回最大的整数 i ,使得 i <= x。 在Python中,向下取整总是从 0 舍入。

定义函数,根据构成样本坐标的近邻点个数的不同画出相应的散点图

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。

add_subplot(a, b, i ):把画布分成a行b列,图像画在从左到右从上到下的第 i 块

scatter()函数链接:Python中scatter函数参数详解_Python_AnneQiQi的博客-CSDN博客


结果输出:

原始空间的样本数据
降维后的数据

由结果可知,构成样本坐标的近邻点个数对降维结果影响较大,且随着k的增大,降维结果越好,但运行时间大体上也在增加

Isomap

结果输出

由输出结果可知,保留样本数据的维数越少,样本丢失的信息越多,其重构误差也越大


由结果可知,近邻点k的数量对降维结果有较大的影响,k=1时,近邻范围过小,发生断路现象;随着k的增大,可以看出降维效果变好

代码:

PCA降维及python实现_Python_Reticent_Man的博客-CSDN博客
人工智障学习笔记——机器学习(13)LLE降维_人工智能_九日王朝-CSDN博客降维方法总结(线性与非线性)_人工智能_大熊的博客-CSDN博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容