去除数据中的重复,并将剩余部分转换成标准、可接受格式的处理过程。
1、数据问题
数据缺失
通过手动或规则填充数据;
清除列;
无效数据
错误数据的探测和修正;
根据概率统计学发现数据值异常的记录,如姓名、地址、邮政编码等。
重复记录
合并/清除 规则。处理方式与特定的应用领域无关。
数据源内部或数据源之间数据的不一致性
可定义完整性约束来发现不一致性。也可通过分析数据发现关联,从而保持一致性。
数据迁移工具:通过归一化规则,如把gender字符串都转化成sex。
数据清理工具:使用领域特有知识(如邮件地址)对数据进行清理,通过语义分析、模糊匹配解决数据清理。
数据审计:通过扫描数据发现规律与联系。
2、数据问题的处理方法
1)研究数据、定义错误类型
单数据源?多数据源?
结构级错误?记录级错误?是否符合字段定义和约束?
2)搜索、识别错误
排序、比较、匹配等耗时的运算。
3)修正错误
依赖标准文件、数据字典、数理统计。
参考
http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97