规格化就是将一个属性取值范围投射到一个特定范围之内,以消除数值型属 性因大小不一而造成挖掘结果的偏差。规划化处理常常用于神经网络、基于距离 计算的最近邻分类和聚类挖掘的数据预处理。对于神经网络,采用规格化后的数 据不仅有助于确保学习结果的正确性,而且也会帮助提高学习的速度。对于基于 距离计算的挖掘,规格化方法可以帮助消除因属性取值范围不同而影响挖掘结果 的公正性。介绍三种规格化方法
- <a href="//www.greatytc.com/p/f59c051551e1">最大最小规格化方法</a>
- <a href="//www.greatytc.com/p/92318a6c3a65">零均值规格化方法</a>
- <a href="//www.greatytc.com/p/890c36ff8f34">十基数变换规格化方法</a>
最大最小规格化方法
- 该方法对被初始化数据进行一种线性转换。
设minA和maxA是属性A的最小和最大值。最大最小规格化方法将属性A的一个值v映射为v'且有v'∈[new_minA,new_maxA],具体映射计算公式如下:
<b>new_minA,new_maxA分别是映射到的范围的边界
最大最小规格化方法保留了原来数据中存在的关系。但若将来遇到超过前属性A取值范围的数值,将会引起错误</b>
- 示例
假设属性income的最大最小值分别是12,000元和98,000元,若要利用最大最小规格化方法将属性income的值映射到0至1的范围内,那么对属性income的73,600元将转化为
((73,000 − 12,000) / (98,000 − 12,000)) x (1.0 − 0.0) = 0.716
- 代码实现
待续......