疑问解答 | 数据质量异常该如何处理?


在使用SPSSAU进行分析时,有时会出现“数据质量异常”提示。这种情况会发生在很多分析方法上,但原因基本共通的。

以下3个问题是常见的通用性问题,多数“数据质量异常”情况就是由这些问题所致:


通用问题

第一:异常的原因


1)绝对共线性

如果数据出现‘绝对共线性’,比如出现2个分析项之间出现相关系数值接近1(或接近1),即有完全的替代关系,但是却把2个分析项同时进行分析,则有可能出现异常现象。

2)基本没有相关

除此之外,如果说2项之间基本没有相关(相关系数接近0),但此2项同时在模型中出现,此时也很可能出现异常现象。当出现此类情况时,把相关系数接近1或0的项移出去,再次分析即可。

3)样本量太少

如果分析的样本量非常少,比如分析样本量仅10个,但模型中有20个分析项,这种情况很容易出现异常,因为样本量太少。如果样本量过少,首先需要查清楚原因,如果确实是样本量过少就需要加大样本,当然也可以从模型中移出一些项后分析尝试


第二:异常的检验


当出现数据异常时,通用有两种检查方法:

一是使用相关分析查看相关系数情况(把出现异常的模型中所有分析项都做相关分析),这种方法对应检测分析项中是否存在绝对共线性或基本没有相关性。

二是使用描述分析查看样本量,检查当前分析的样本量情况有多少,这种方法对应查看数据样本量是否过少(有可能数据有缺失,或者筛选等导致分析样本量非常少)。


第三:其它


如果数据做过虚拟哑变量设置,本应该留出一个参考项(即少放一项在模型中),但却把哑变量全部放到回归模型中,一般都会出现异常或者奇异矩阵等。

关于哑变量问题,大家可以参考这两篇文章:

SPSSAU:哑变量(虚拟变量)

SPSSAU:什么是虚拟变量?怎么设置才正确?


“数据质量异常”情况都可先检查以上3个通用问题,大部分情况下即可解决。

除此之外,每个方法出现异常的原因也有所不同,下面会针对每个方法出现的原因进行说明。


验证性因子分析、结构方程模型

当出现质量异常时,首先排除通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:


1)CFA及SEM分析一般只针对量表题,请检查数据是否为量表题

2)同一个因子的分析项之间相关关系过弱

除此之外,将同一个因子对应的项做相关分析,如果发现某两项之间的相关性过弱(比如相关系数小于0.2),把其中一项从模型中移除出去,再次进行分析即可。

3)MI调整过度

MI调整是指结合MI值对分析项之间建立协方差关系(即相关关系),比如MI值大于10时建立协方差关系,此过程为内部自动建模过程。有可能出现建立的协方差关系过多导致模型无法收敛拟合。此时建议把标准放宽尝试即可。


MI调整


路径分析

当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:


MI调整是指结合MI值对分析项之间建立协方差关系(即相关关系),比如MI值大于10时建立协方差关系,此过程为内部自动建模过程,其目的仅仅在于对模型进行优化。有可能出现建立的协方差关系过多导致模型无法收敛拟合。此时建议把标准放宽尝试即可。


二元Logit回归

当出现质量异常时,首先排除通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:


对因变量Y做频数分析,查看频数分布情况,如果出现某项的频数接近0个(比如仅2个),此类数据并不适合进行二元Logit回归,因为数据分布极其不均匀,建议改用其它方法。


有序Logit回归

当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:


查看是否选中平行性检验,平行性检验对数据质量要求相对较高,有可能模型不收敛因此无法进行平行性检验,此时建议改用多分类Logit回归。

另外,当出现‘奇异矩阵’提示时,此类情况是由于严重共线性,即相关系数接近1所致;具体原因上很可能是样本量太少(比如仅10个样本但却有20个分析项),也或者虚拟哑变量问题设置不当所致。


多分类Logit回归

当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:


对因变量Y做频数分析,查看频数分布情况,如果出现某项的频数接近0个(比如仅2个),因变量各项的分布严重不均匀导致模型不收敛出现异常,建议使用数据处理里面的数据编码,对组别进行合并,当然也可以筛选出分布较为均匀的组别后,再次进行分析。

另外,当出现‘奇异矩阵’提示时,此类情况是由于严重共线性,即相关系数接近1所致;具体原因上很可能是样本量太少(比如仅10个样本但却有20个分析项),也或者虚拟哑变量问题设置不当所致。


双因素方差、三因素方差、多因素方差、协方差

当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:



查看自己的数据是否为实验或类实验数据正交设计数据等,通常情况下双因素,三因素,多因素方差分析都是针对实验或类实验,也或者正交设计数据等进行分析;因为此类数据会有非常强的‘平衡性’。其它的数据正常情况下是使用单因素方差(通用方法里面的方差)进行分析,重复做多次即可。


重复测量方差


当重复测量方差出现质量异常时,首先按照通用问题进行查看(即做相关分析,检查分析项之间是否有出现1,或者0),以及检查样本量是否过少(比如小于分析项的个数)等,并且进行处理后再次分析。

如果依旧出现数据质量异常,多数情况下是由于数据格式不对所致,SPSSAU支持long-format数据,具体可通过此页面(或对应的帮助手册)查看数据格式例子。

https://spssau.com/front/spssau/helps/otherdocuments/methodsdataformat.html


面板模型

当面板模型出现质量异常时,首先按照通用问题进行查看(即做相关分析,检查分析项之间是否有出现1,或者0),以及检查样本量是否过少(比如小于分析项的个数)等,并且进行处理后再次分析。

如果依旧出现数据质量异常,多数情况下是由于数据格式不对所致,具体可通过此页面(或对应的帮助手册)查看数据格式例子。

https://spssau.com/front/spssau/helps/otherdocuments/methodsdataformat.html


总结来说,分析前一定先确保自己的数据真实、可靠,这是最关键的。

出现“数据质量异常”的情况,先检查数据间的相关性及样本量是否符合分析需要。其次查看具体的分析方法,对应的解决办法。

以上就是本次分享的内容,更多干货内容登录SPSSAU查看。

END

/SPSSAU快速入门指南/

SPSSAU:数据格式 | 如何正确整理你的数据格式?

SPSSAU:数据管理 | 这些数据管理功能,希望你一定学会。

SPSSAU:问卷质量 | 如何提高问卷收集数据的质量?

SPSSAU:方法选择 | 如何快速选出正确分析方法?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,454评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,553评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,921评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,648评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,770评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,950评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,090评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,817评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,275评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,592评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,724评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,409评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,052评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,815评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,043评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,503评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,627评论 2 350