从1维到3维,为我们的感觉是:维度越高,分类性能越优。然而,维度过高将导致一定的问题:在一维特征空间下,我们假设一个维度的宽度为5个单位,这样样本密度为
10/5=2;在2维特征空间下,10个样本所分布的空间大小55=25,这样样本密度为
10/25=0.4;在3维特征空间下,10个样本分布的空间大小为55*5=125,样本密度就为
10/125=0.08。
如果继续增加特征数量,随着维度的增加,样本将变得越来越稀疏,在这种情况下,也更容易找到一个超平面将目标分开。然而,如果我们将高维空间向低维空间投影,高维空间隐藏的问题将会呈现出来。
过多的特征导致的过拟合现象:训练集上表现良好,但是对新数据缺乏泛化能力。
总结
距离测量开始失去其在高维空间中测量的有效性,由于分类器取决于这些距离测量,因此在较低维空间中分类通常更容易,其中较少特征用于描述感兴趣对象。
如果理论无限数量的训练样本可用,则维度的诅咒不适用,我们可用简单的使用无数个特征来获得完美的分类。训练数据的大小越小,应使用的功能就越少。如果N个训练样本足以覆盖单位区间大小的1D特征空间,则需要N ^ 2个样本来覆盖具有相同密度的2D特征空间,并且在3D特征空间中需要N ^ 3个样本。换句话说,所需的训练实例数量随着使用的维度数量呈指数增长。