R语言之缺失值处理

文章和代码已经归档至【Github仓库：https://github.com/timerring/dive-into-AI 】或者【AIShareLab】回复 R语言 也可获取。

缺失值处理

在实际的数据分析中，缺失数据是常常遇到的。缺失值（missing values）通常是由于没有收集到数据或者没有录入数据。

例如，年龄的缺失可能是由于某人没有提供他（她）的年龄。大部分统计分析方法都假定处理的是完整的数据集。因此，除了一些专业化的书籍，大多数统计学教科书很少涉及这一问题。实际上，在进行正式的分析之前，我们需要在数据准备阶段检查数据集是否存在缺失值，并通过一些方法弥补因缺失值所造成的损失。

1. 识别缺失值

在 R 中，缺失值用 NA 表示，是“Not Available”的缩写。函数 is.na( ) 可以用于识别缺失值，其返回结果是逻辑值 TRUE 或 FALSE。

height <- c(100, 150, NA, 160)
height
# 100 150 <NA> 160
is.na(height)
# FALSE FALSE TRUE FALSE

如果数据很少，缺失值的个数直接可以数出来，比如上面的变量 height 只有一个缺失值。但是如果数据量很大，就需要借助函数 table( ) 了。

table(is.na(height))
# FALSE  TRUE 
#    3     1

需要注意的是，任何包含 NA 的计算结果都是 NA。例如：

mean(height)
#  <NA>

想要得到所有可参与计算的元素的平均值，应该先将 NA 从向量中移除。

mean(height, na.rm = TRUE)
# 136.666666666667

参数 na.rm 表示移除缺失值，其意义与用函数 na.omit( ) 把缺失值省略是一样的。

mean(na.omit(height))

注意，这里 na.omit( ) 是一个独立的函数，它能忽略输入对象中的缺失值，而 na.rm 只是计算描述性统计量的函数里的一个内部参数。

函数 summary( ) 在计算向量的统计量时会自动忽略缺失值，它会给出向量中缺失值的个数。例如：

summary(height)
#    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
#   100.0   125.0   150.0   136.7   155.0   160.0       1

2. 探索数据框里的缺失值

在决定如何处理缺失值之前，了解哪些变量有缺失值、数目有多少、是什么组合形式等是非常有意义的。下面用一个示例介绍探索缺失值模式的方法。

datasets 包里的数据集 iris 也称鸢尾花数据，它包含 150 个鸢尾花样品，分为 3 个品种（Species），每个品种各有 50 个样品。每个样品又包含 4 个属性，即花萼长度（Sepal.Length）、花萼宽度（Sepal.Width）、花瓣长度（Petal.Length）和花瓣宽度（Petal.Width）。该数据集不含缺失值。为了说明缺失值的处理方法，首先人为地生成一些缺失数据，以探索缺失值的模式和检验补全的效果。

missForest 包里的函数 prodNA( ) 可以随机生成缺失值，使用此函数前需要安装和加载 missForest 包。

options(warn=-1)
library(missForest)
data(iris)
# 为了使结果具有可重复性，我们用函数 `set.seed( )` 设置了生成随机数的种子。
set.seed(1234)
# 函数 prodNA( ) 默认生成数据数目 10% 的缺失值，我们可以通过改变参数 noNA 的值以生成不同数目的缺失值。
iris.miss <- prodNA(iris)
summary(iris.miss)

从函数 summary( ) 的输出中可以看到每个变量里缺失值的数目。要了解数据集里缺失值的模式，用图形展示是一个好办法。VIM 包提供了大量可视化缺失值的函数，其中函数 aggr( ) 不仅展示每个变量里缺失值的个数（或比例），还展示多个变量组合下缺失值的个数（或比例）。例如：

library(VIM)
aggr(iris.miss, prop = FALSE, numbers = TRUE, cex.axis = 0.7)

[图片上传失败...(image-f7a37d-1693121813143)]

在上图中，第一幅图是用条形图展示了每个变量缺失值的个数，这与上面函数 summary( ) 的输出结果是一致的；第二幅图展示了数据框中 5 个变量不同组合下缺失值的个数，其中红色方块代表缺失值，最右边的数字代表个数。从最下面看起，共有 97 个鸢尾花样品没有缺失值，有 9 个鸢尾花样品知道它们的 4 个属性但不知道品种。

3. 填充缺失值

一般来说，处理缺失值可以采用下面 3 种方法：

删除，删除带有缺失值的变量或记录；
替换，用均值、中位数、众数或其他值替代缺失值；
补全，基于统计模型推测和补充缺失值。

上述方法都是在不得已时使用，无论哪种方法都不能完全弥补数据缺失带来的信息损失。因此，在数据收集阶段必须尽量避免数据的缺失。

3.1 删除缺失值：na.omit( )、complete.cases( )

如果缺失值的数量很小，删除后对分析结果影响不大，我们可以使用前面提到的函数 na.omit( ) 删除数据框中的缺失值。例如：

iris.sub <- na.omit(iris.miss)
nrow(iris.sub)

删除缺失值后的数据框 iris.sub 只包含 97 条完整记录。此外，函数 complete.cases( ) 可以用来识别矩阵或数据框中没有缺失值的行，它的返回值是 TRUE 或 FALSE。如果某一行有完整的数据，返回 TRUE；如果某一行至少包含一个缺失值，则返回 FALSE。所以，上面的命令等价于：

iris.sub <- iris.miss[complete.cases(iris.miss), ]

3.2 使用特定数值替换缺失值

如果不想直接删除缺失值，在某些情况下，还可以尝试使用特定的数值替换缺失值。
下面以变量 Sepal.Length 为例，用忽略缺失值后的均值替换该变量里的缺失值。先计算均值：

Sepal.Length.Mean <- mean(iris.miss$Sepal.Length, na.rm = TRUE)
Sepal.Length.Mean
# 5.78695652173913
# 用忽略缺失值后的均值替换该变量里的缺失值
iris.miss1 <- iris.miss
iris.miss1$Sepal.Length[is.na(iris.miss1$Sepal.Length)] <- Sepal.Length.Mean

为检查补全后的数据与原始数据的差异，我们可以计算偏差：

summary((iris$Sepal.Length - iris.miss1$Sepal.Length)/iris$Sepal.Length)
#  Min. 1st Qu. Median Mean 3rd Qu. Max.
# -0.258034 0.000000 0.000000 0.006871 0.000000 0.248447

补全的平均偏差不到 1%，但最大偏差大约为 ±25%。

3.3 多重插补

多重插补（multiple imputation）是一种基于重复模拟的处理缺失值的方法，常用于处理比较复杂的缺失值问题。

R 中有多个可以实现缺失值多重插补的包，如 Amelia 包、mice 包和 mi 包等。其中 mice 包使用链式方程的多变量补全法，被广泛运用于数据清洗过程中。

mice 包假设数据是随机缺失的，并根据变量的类型建立模型得到预测值以代替缺失值。在这些模型里，常用的有：

预测均值匹配（pmm），实质上就是线性回归，适用于数值型变量；
Logistic 回归（logreg），适用于二分类变量；
多分类 Logistic 回归（ployreg），适用于无序多分类变量；
比例优势比模型（polr），适用于有序多分类变量。

接下来，用函数 mice( ) 补全数据框 iris.miss 里的缺失值。

library(mice)
imputed.data <- mice(iris.miss, seed = 1234)
summary(imputed.data)
# PredictorMatrix:
#             Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# Sepal.Length            0           1            1           1       1
# Sepal.Width             1           0            1           1       1
# Petal.Length            1           1            0           1       1
# Petal.Width             1           1            1           0       1
# Species                 1           1            1           1       0

在上面输出结果的矩阵 PredictorMatrix 里，每一行代表含有缺失值的变量名，如果该行对应的某一列元素为 1，代表该列变量被用于建模预测。

从上面的输出结果中可以看出，对于每一个变量，其余变量都被用于它的缺失值预测。函数 mice( ) 的输出结果是一个列表，其中的对象 imp 也是一个列表，存放的是每个变量缺失值的插补值。例如，使用下面的命令可以得到变量 Sepal.Length 的插补值：

imputed.data$imp$Sepal.Length

函数 mice( ) 通过 Gibbs 抽样完成，默认进行 5 次随机抽样，所以一共得到了 5 组插补值。我们可以通过查看上面的输出结果以检查插补值是否合理，然后选择其中的一组来补全。

例如，取 5 组插补值中的第 3 个：

complete.data <- complete(imputed.data, 3)

为了检查缺失值的补全效果，对于数值型变量，我们可以计算插补值与原始变量值的偏差。

以变量 Sepal.Length 为例：

summary((iris$Sepal.Length-complete.data$Sepal.Length)/iris$Sepal.Length)
#       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
# -0.1428571  0.0000000  0.0000000  0.0007643  0.0000000  0.0945946

补全的平均偏差不到 0.1%，最大偏差大约为 ±13%。因此，这里用多重插补法比用均值替换缺失值的方法效果更好。

数据框的最后一个变量 Species 是一个因子，包含 19 个缺失值。为了检查这种分类变量的缺失值的补全效果，我们可以用函数 table( ) 得到原始变量和插补后变量的列联表：

table(iris$Species, complete.data$Species)
#              setosa versicolor virginica
#  setosa         50          0         0
#  versicolor      0         50         0
#  virginica       0          1        49

这种表被称为 混淆矩阵（confusion matrix），经常用于评价模型预测的准确度。对角线上的数字代表预测值和真实值一致的个数，非对角线上的数字代表预测值和真实值不一致的个数。

从上面的输出结果可以看出，变量 Species 的 19 个缺失值插补的正确率为 100%。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,012评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,628评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,653评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,485评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,574评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,590评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,596评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,340评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,794评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,102评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,276评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,940评论 5赞 339
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,583评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,201评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,441评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,173评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,136评论 2赞 352