数据预处理_异常值处理

一、异常值

  • 1.异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析

  • 2.异常值的处理,先是辨别出哪些是异常值,再根据实际情况选择如何处理异常值。

    • 伪异常,比如由于特定业务运营而产生的;
    • 真异常,并非业务运营而产生的,是客观反映数据本身存在异常的分布。
  • 3.异常值分析

    • 3σ原则
    • 箱型图
  • 4.异常值的处理方法

    • 剔除异常值
    • 视为缺失值NaN,填补处理
    • 不处理

二、异常值分析及处理

1.方法1 → 3σ原则

3σ原则是指若数据服从正态分布,异常值被定义为一组测定值与其平均值的差的绝对值超过3倍标准差值 → p(|x - μ| > 3σ) ≤ 0.003

!但使用3σ原则需要先判断数据是否服从正态分布,服从正态分布才能使用该原则判断异常值

第一步:正态性检验

正态性检验是指利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验

正态性检验方法:KS检验

KS检验理论简介:

  • KS(Kolmogorov-Smirnov)检验用于检验数据是否符合某种分布,是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。
  • 其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。KS检验与t-检验之类的其他方法不同,KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。
  • 当然这样方便的代价就是当检验的数据分布符合特定的分布时,KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS检验在为非参数检验在分析两组数据之间是否不同时,是相当常用。
  • 虽然KS检验的定义中说检验的数据必须是连续的,若在非连续数据上用KS检验检验的显著性回下降,想要获得准确值就需要用其他检验,比如chi-square goodness-to-fit 但在实际操作中,如果离散分布的数据够多的话,用KS检验的显著性不会有太大影响,可以比较放心使用。

KS检验的参数解释:

  • KS检验会返回两个值,D值和p值。
  • D值:表示两个分布之间最大距离,即系D值越小,表示两个分布的差距越小,分布也就越一致。
  • p值:表示假设检验中的p值,因为原假设为“待检验的两个数据的分布一致”,即系若p值>0.05(p值的设定取决于实际要求),那么就不能拒绝原假设,即系“待检验的两个数据分布一致”这个假设成立。
# 设置cell多行输出

from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = 'all' #默认为'last'

# 导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

os.chdir(r'E:\python_learn\train')
# 读取数据
file_name = 'data_abnormal.csv'
data = pd.read_csv(file_name,usecols=['key1','key2','key3'])
print(data.head())
         key1        key2        key3
0  171.478895   31.816106 -235.872855
1   38.145928  -44.222959  -45.868820
2  -14.594276    7.455609  -39.576063
3  118.362921   15.007191   83.177483
4   -5.589237  114.340285  135.983500
# 直接用算法做KS检验
from scipy import stats

# 创建函数
def f(x):
    return stats.kstest(x,'norm',(x.mean(),x.std()))   
# .kstest方法:KS检验,参数分别是:待检验的数据,检验方法(这里设置成norm正态分布),均值与标准差

data_stats = data.apply(f)  # 将算法直接映射到每一列
data_stats.values
# 结果返回两个值:statistic → D值,pvalue → P值
# p值大于0.05,为正态分布
array([KstestResult(statistic=0.009734859311949784, pvalue=0.7305177443558707),
       KstestResult(statistic=0.008796876410950949, pvalue=0.8338347831965152),
       KstestResult(statistic=0.013374626202709239, pvalue=0.3327578473536996)],
      dtype=object)

从所返回的D值和p值得出,数据集每列数据都符合正态分布的规律,因此可以使用3σ进行异常值检测。

第二步:3σ检测异常值和异常值处理

公式: |x - μ| >3σ为异常值,也就是说一组测定值与其平均值的差的绝对值超过3倍标准差值即为异常值

# 数据缺失值查看
print(data.head())
data.isna().sum()  
data.isna().sum().sum()  # → 不存在缺失值
         key1        key2        key3
0  171.478895   31.816106 -235.872855
1   38.145928  -44.222959  -45.868820
2  -14.594276    7.455609  -39.576063
3  118.362921   15.007191   83.177483
4   -5.589237  114.340285  135.983500





key1    0
key2    0
key3    0
dtype: int64






0
# 筛出异常值

df = data.copy()  # 复制一份数据
lst = []   
cols = df.columns
for col in cols:
    df_col = df[col]
    err = df_col[np.abs(df_col-df_col.mean())>3*df_col.std()]  # 筛出异常数据
    lst.append(err)
    err_data = pd.concat(lst)
print('一共检测到异常值共:%i'%len(err_data),'\n')
print('异常值展示前10条:\n',err_data.head(10))
一共检测到异常值共:43 

异常值展示前10条:
 197     318.319213
1319    331.880033
2074   -416.500736
2109    300.174181
2922   -488.395881
3182    360.454103
3793    324.765684
3863    335.669291
4096   -307.131874
4272   -310.307727
dtype: float64
# 将异常值替换为NaN,并插补补全

normal = df[np.abs(df-df.mean())<3*df.std()]  #  异常值是|x - μ| >3σ,反之小于3σ的值为正常
# 返回一个已用NaN替换掉异常值的DataFrame

normal.isna().sum()   # 查看是否有空值  →  存在缺失值,表示已将异常值替换为NaN
normal.isna().sum().sum()

df_clean = normal.fillna(normal.median())   # 使用中位数插补

df_clean.isna().sum()
df_clean.isna().sum().sum()   # 检查空值是否已处理
key1    11
key2    11
key3    21
dtype: int64






43






key1    0
key2    0
key3    0
dtype: int64






0

以上就是3σ原则检测异常值的操作过程


2.方法2 → 箱形图

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。

箱型图.png

(1)箱形图的六个数据节点:

  • 上四分位数(Q1)
  • 中位数(Q2)
  • 下四分位数(Q3)
  • 四分位距(IQR):IQR = Q3-Q1
  • 上限(最大值区域):Q3+1.5IQR
  • 下限(最小值区域):Q1-1.5IQR
  • 异常值,被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值

(2)箱形图的作用:

  • ① 识别数据的异常值

    • 箱型图的异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值
    • 3σ原则需要以数据服从正态分布为前提,但实际数据往往不能严格服从正态分布,且其判断异常值的标准以计算数据的均值和标准差为基础,而均值和标准差耐抗性较小,异常值本身对他们影响就较大,因此产生的异常值个数不会多于总数的0.7%。
    • 但箱型图与值对比其优势是,不需事先假定数据服从特定的分布,没有对数据做限制要求,真实直观低呈现数据本来面貌,且箱型图以四分位数和四分位距作为基础,具有一定耐抗性,箱形图识别异常值的结果比较客观。
  • ② 易于发现数据的偏态和尾重

    • 标准正态分布的样本,只有0.7%的值是异常值,中位数位于上下四分位数的中央,箱型图的方盒关于中位线对称。
    • 异常值集中在较大值一侧,则分布呈现右偏态;;异常值集中在较小值一侧,则分布呈现左偏态。尽管不能给出偏态和尾重程度的精确度量,但可作为粗略估计的依据。
  • ③ 能用于数据性探索分析,分析数据的形状

    • 多组数据箱型图并排对比,能一目了然的查看中位数,尾长,异常值,分布区间等信息。
print(data.head()) # 原始数据展示

# 查看缺失值
data.isna().sum()
data.isna().sum().sum()  # → 不存在缺失
         key1        key2        key3
0  171.478895   31.816106 -235.872855
1   38.145928  -44.222959  -45.868820
2  -14.594276    7.455609  -39.576063
3  118.362921   15.007191   83.177483
4   -5.589237  114.340285  135.983500





key1    0
key2    0
key3    0
dtype: int64






0
# 箱型图查看数据

color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')  # 颜色设置
box=df2.plot.box(figsize=(12,8),return_type='dict',color=color)
plt.title('异常值检测-箱型图',fontsize=14,pad=12)
异常值检测-箱型图.png

从箱型图反映的情况可知,每列数据都存在异常值的情况。

# 筛出异常值

df2 = data.copy()  # 复制一份数据

lst = []   
cols = df2.columns
for col in cols:
    df2_col = df2[col]
    q1 = df2_col.quantile(0.25)
    q3 = df2_col.quantile(0.75)
    iqr = q3-q1
    ma = q3+iqr*1.5
    mi = q1-iqr*1.5
    error = df2_col[(df2_col>ma) | (df2_col<mi)]   # 筛出异常
    lst.append(error)
    err_data = pd.concat(lst)
print('一共检测到异常值共:%i'%len(err_data),'\n')
print('异常值展示前10条:\n',err_data.head(10))
一共检测到异常值共:130 

异常值展示前10条:
 85     -296.923702
197     318.319213
344    -268.979898
461     266.571340
609    -294.773187
615    -278.354103
819     293.908994
860    -275.333416
946    -269.933060
1232    278.143495
dtype: float64
# 处理异常值 → 替换为NaN,并以插值方法处理

Q1 = df2.quantile(0.25)
Q3 = df2.quantile(0.75)
IQR = Q3-Q1
Max = Q3+IQR*1.5
Min = Q1-IQR*1.5
data_nor = df2[(df2 >= Min) & (df2 <= Max)]  # 将正常的数据按数据框形式筛选出来,返回一个已用NaN替换掉异常值的DataFrame
data_nor.isna().sum()
data_nor.isna().sum().sum()

# 插值处理NaN
data_clean = data_nor.fillna(data_nor.median())
data_clean.isna().sum()  # 确认缺失值已处理
key1    45
key2    32
key3    53
dtype: int64






130






key1    0
key2    0
key3    0
dtype: int64

以上就是箱型图检测异常值的操作过程*

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352