什么是数据归一化 ?
具体有哪些归一化 ?
为什么要归一化 ?
1. 什么是数据归一化 ?
standardize the range of independent variables, 因为不加这个处理的话, 计算的结果会被某个/某几个变量所控制, 而其它变量的变化则显示不出来
例如: 在计算两个点的欧式距离的时候, 的单位为, 的单位为, 有以下3个点:
P1: , P2: , P3:
P2 是在 的方向移动了半个单位, P3 是在 的方向上移动了半个单位, 同样是半个单位, 我们却有如下关系:
我们可能需要类似这样的结果: , 那改如何处理我们手头的数据呢 ?
2. 具体有哪些归一化 ?
facet | min-max | mean |
---|---|---|
公式 | ||
特点 | 将数据归置到 之间 | 将数据归置到 之间 |
优点 | 减小了标准差,抑制了异常点的影响 | |
缺点 | 容易受异常点的影响 | |
标准差 |
将上述例子中的点进行 min-max 归一化之后为:
P1: , P2: , P3: , 然后我们得到:
3. 归一化共性及扩展
从以上2个归一化计算公式可以看出, 归一化之后的结果,可以更好的描述某个点到某个定点的比例,例如一个是 , 一个是 , 那我们就对这个定点的计算做一个抽象, 那么这个点就可以是 或者其它的点
ref: