异常监测是数据挖掘中比较重要的一个方面,主要用来发现聚类中小的模式,也就是数据集中显著不同于其他数据的对象,这种情况常见于一些脏数据,异常的不符合要求的数据,但是也有些并不是出于偏差,而是出于不同的机制而导致的结果。
主要的挖掘模型有两种:有指导和无指导。有指导值得是根据模型定义一定的异常检查规则或者是人工发现异常数据,然后根据需求建立训练修正异常检测模型。而无指导值得是情况负责,并且先验知识难于总结的情况下,一句数据本身的信息来监测异常,通过建立模型以及无监督学习训练模型来发现异常。
主要的挖掘方法有:基于统计的算法、基于深度的算法、基于距离的算法、基于密度的算法、以及面向高纬度数据的算法。
1、基于统计的异常检测算法:优点是模型确定好并且测试正确候,其指导意义很大,这种情况一般常见于使用该领域专家多年研究的先验知识,慢慢摸索出来,就好比老马识途的感觉,并且算法要求比较低,省略了大量的模型训练过程。但是这种方法用户并不知道数据分布情况,在复杂情况下,很难批诶到一种理想状态的数学分布。
2、基于深度的异常检测算法:每一个数据都会被映射到k维数据空间上的点,每一个点都会被赋予一个特定意义的深度,并且根据不同的深度将数据划分为不同的层次。
3、基于距离的异常监测算法:大部分的聚类算法都具有一定的噪声处理能力,但是聚类算法中的噪声和异常的噪声在概念上有一些偏差,而本算法的精髓就在于将聚类以及异常检测的噪声合并到一起研究,最后催生了基于密度的异常概念的产生
4、分箱:通过考察临近的值来平滑存储数据的值,一个箱包含最大、最小和中值三个值