Clustering
01. Unsurpervised Learning Introduction
-
无监督学习算法是训练样本没有标签的分类算法。
02. K-means algorithm
聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。
过程:
选择K个点作为初始质心
repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数
03. Otimization Objective
- 一些定义:
样本Xi现在被分配的聚类中心的序号
第k个聚类中心
样本Xi被分配的聚类中心点
-
优化函数:每个样本到他的聚类中心点聚类平均值最小
04. 如何选择K(聚类种类)
-
多少情况人为判断,还有一个“肘部法则”,选择肘关节处的聚类数目。
Dimensionality
01. Data Compression
-
将数据从高维降到低维。
02. Visualization
-
可以将多维数据降低到2-3维进行可视化
Principal Component Analysis (主成分分析法)
01. PCA
-
PCA:主成分分析方法是一种常见的数据压缩算法。在该过程中,数据从原来的坐标轴转换到新的坐标系,以方差最大的方向作为坐标轴的方向,因为最大方差给出了数据最主要的数据特征。
主要是找到一个低维的子空间,使得投影误差的平方和达到最小。
02. PCA算法
过程:
去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将数据转换到上面得到的N个特征向量构建的新空间中(实现了特征压缩)上述降维过程,首先根据数据矩阵的协方差的特征值和特征向量,得到最大的N个特征值对应的特征向量组成的矩阵,可以称之为压缩矩阵;得到了压缩矩阵之后,将去均值的数据矩阵乘以压缩矩阵,就实现了将原始数据特征转化为新的空间特征,进而使数据特征得到了压缩处理。
当然,我们也可以根据压缩矩阵和特征均值,反构得到原始数据矩阵
Applying PCA
01. 原始数据的重构
- 将被压缩的数据还原到原来的维度
02. 选择主要成分的数量
-
使得平均投影误差和平均数据误差的比值小于一个概率。
-
算法:
使k从1到不断增加直到满足要求。
-
优化算法:(没懂)
03. PCA的使用建议
- 压缩数据以减小内存和提高算法效率
- 可视化数据,k=2 or k=3
- 对于处理过度拟合并不好,过度拟合直接用正规化就行