什么是数据处理?
数据处理就是把,杂乱无章的数据,经过科学的系统的整理之后,变成我们所需要的数据的一个过程叫数据处理。
数据处理所经过的步骤
1、数据清洗
在数据清洗里主要是干这么三件事
- 剔除重复数据
有四种处理重复值的方法
1.函数法
COUNTIF(你需要检查的区域,你指定的条件)对区域中满足指定条件的单元格进行计数
条件可以为,数字,字符串或者文本,例如:32、‘23’,‘>32’,'apple'
2.高级筛选法
选择要筛选的区域--》数据选项卡--》排序和筛选--》高级--》高级筛选--》将筛选结果复制到其他位置,在勾选选择不重复的记录,点击确定
3.条件格式法
(excel2010以后才能使用) 开始--》条件格式--》突出显示单元格规则--》重复值(重复值被标为不同的颜色)
4.数据透视表法
插入选项卡,新建数据透视表--》选择区域--》选择重复数据--透视表存放位置--》现有工作表--》指定为重复数据
--》将你要查重的字段拖至标签--》在拖至区域汇总
找到重复数据之后,我们需要剔除重复数据,那么剔除重复数据,有哪几种方法呢?
1.通过菜单栏操作删除重复项
选择要检查的区域,数据--》删除重复项--》选择要删除的列--》确定
2.通过排序删除重复项
选择单元格--》排序和筛选--》降序--》前面是重复项,删除
3.通过筛选删除重复列(有点复杂)
选择单元格--》排序和筛选--》筛选--》在列标签中单击下拉菜单,按照你的筛选条件--》确定
- 补全缺失数据
在这里说明一件事,如果缺失值过多,说明数据收集有问题,可以接受的缺失值是在10%以下
1.定位输入
- 定位缺失值
定位功能:开始--》编辑--》定位条件/Ctrl+g--》定位条件--》空值--》确定
这里使用定位输入对缺失值的处理有四种
1..使用样本统计量的值代替缺失值。最常见的是使用平均值来代替缺失值
2.使用统计模型的值代替缺失值(回归模型 判别模型,需要专业的数据软件)
3.删除有缺失值的记录,会导致样本数量减少
4.将有缺失值的记录保留,在分析时候记得排除
实际中,使用第一种是比较常见的,我们采用定位一次,替换全部的方法(使用enter+Ctrl)
- Ctrl+enter用作在不同区域输入相同的值,
- 先使用ctrl选择要输入的区域
- 在输入要录入的内容
- 松开CTRL 使用CTRL+enter 成功
2.查找和替换
当缺失值以错误的标识符出现时候,可以使用
开始--》编辑--》查找和替换
或者
Ctrl+G(定位)ctrl+f(查找) ctrl+h(替换)
- 纠正错误数据
逻辑错误一般有两种
1.输入不符合要求
2.信息录入错误
一般情况下IF函数+特定的逻辑条件可以解决大部分问题
- IF函数()
里面有三个参数
1.判断的表达式
2.表达为真时候显示的值
3.表达式为假时候显示的值
EG:IF(COUNTIF(B3:H3,'<>0')>3,'错误',‘正确’)
含义是:当B3:H3区域里,出现不等于0 的数,大于三个,显示正确,小于三个显示错误
利用条件格式标记错误
开始--》条件格式--》突出显示条件规则--》其他规则--》设置显示规则--》设置显示颜色
EG = OR(B3=1,B3=0)=FALSE
含义是:当函数参数,任意一个为真是,返回true
AND(参数1,参数2.。。。)当所有参数都为真时,才返回true
2、数据转化
数据表的行列互换
1.开始--》剪贴板--》粘贴--》选择性粘贴
2.CTRL+alt+V--》选择转置,复选框多选题的录入方式之间的转换
多选题的录入方式有两种
1.使用二分法,利用0和1 表示是否该选项被选中,这种方法录入时候繁琐,但是数据分析起来简单
2.多重分类法,这种方法只能在SPSS中进行,分析,在Excel里相对繁琐,但是节省录入时间
我们这里说另外一种,就是将多重录入转换为二分法,即省时,又省力
假设有这样的数据
我们需要在录入时候,使用多重分类法,在进行数据分析时候,使用二分法,那么怎么办呢?很简单,就是将录入后多重分类的结果,转化为二分的结果
这里介绍两个函数
HLOOKUP函数:查找与匹配,在表格首行查找指定的数据,并返回指定的数据所在的列中的指定的列所处的单元格的内容
HLOOKUP匹配函数的使用:(要在表格第一行查找的值,包含数据的单元格区域,可以使用绝对区域或区域名称的引用,希望返回匹配值的序列号,1,返回第二个参数第一行的值,依次类推,近似匹配1,还是相似匹配0,一般为0)
ISNUMBER函数():判断是否为数字,是就返回true,不是就返回false
这里数据的转换函数为:=IF(ISNUMBER(HLOOKUP(1,B5:D5,1,0))1,0)
HLOOKUP 含义:在B5:D5区域中寻找1,找到该数值,就返回该数值所在的第一行的信息,精确匹配,如果没找打。就返回#N/A
IDNUMBER含义:判断是否为数字,是就返回true,不是就返回false
3、数据提取
保留原数据中某些字段的部分信息,组合成一个新的字段,可以是字段的部分信息--字段分列,也可以是几个字段合并为一个新的字段---字段合并,还可以是将原数据表中没有但是其他数据表的信息匹配过来----字段匹配
1.字段分列
两种方法
- 菜单法(适合有特定分隔符的情况)
数据--》数据工具--》分列--》选择分隔符号--》完成 - 函数法(没有特定分隔符)
LEFT(text,num_chart)/RIGHT(text,num_chart)函数
text:包含要提取的字符串的文本
num_chart:要提取的字符串的left/right的个数
2.字段合并
也是有两种方法
CONCATEBATE函数
CONCATEBATE(text1,text2,。。。)text<=30,text可以为文本,数字,单元格引用,当使用数字和文本进行合并时候,数字变为文本,无法进行计算&运算符
同理
EG:=A2&“迟到”&B2&“次”
TEXT函数:使用连接运算符连接数字和文本时候。控制数字的显示方式
EG:=A3&“迟到比例为”&TEXT(B3,“0%”)
3.字段匹配(提取不同表格所需要的信息)
打开两个表--》找到你需要提取的信息,输入公式=VLOOKUP(B2[员工职位表.xlsx]Sheetxx$xx,3,0),第二个参数不需要手动录取,直选选中区域即可
VLOOKUP函数:查找与匹配,在表格首列查找指定的数据,并返回指定的数据所在的行中的指定的列所处的单元
VLOOKUP匹配函数的使用:(要在表格第一列查找的值,包含数据的单元格区域,可以使用绝对区域或区域名称的引用,希望返回匹配值的序列号,1,返回第二个参数第一列的值,依次类推,近似匹配1,还是相似匹配0,一般为0)
出现错误标识#N/A
1.函数第二个参数的第一列的值可能不是要查找的值
2.数据存在空格(可以使用TRIM函数批量删除)3.
数据类型或格式不一致,转为一致即可
4、数据计算
1.简单计算
加、减、乘、除
有时候数据表中的字段不能直接提取,但是可以通过计算的来
可以通过字段的 + - * / 的来
=B2+D3
如果求D2:D7之间的所有和
编辑选项卡--》自动求和--》求和--》Enter(还可以求平均数,最大值,最小值,计数等功能)
2.函数计算
- 平均值和总和
AVERAGE()/SUM(),MAX、MIN等等····
括号内时要计算的参数,之间用逗号隔开,可以是绝对值,单元格引用,区域或者定义的名称 - 对日期的操作
输入日期:
需要显示年-月-日 TODAY()函数或者CTRL+;
或者单独显示时-分-秒使用 CTRL+shift+;
一起显示年月日时分秒 使用NOW()或者先按下CTRL+;-》空格--》CTRL+shift+;
使用公式插入的时间是动态的,使用快捷键是静态的
日期的加减
如果是简单的加减天数
直接使用=A2+5,直接对天数操作
如果是复杂情况,使用DATE函数
=DATE(YEAR(A2)+3,MONTH(A2)+1,DAY(A2)+5)
计算相差天数
DATTEDIF函数 ()
三个参数(开始日期,结束日期,计算形式)
Y:计算时段中的整年
M:计算时段中的整月
D:计算时段中的整天
MD:日期中天数的差,忽略年和月
YM:日期中月数的差,忽略年和日
YD:日期中年份的差,忽略月和日
5.数据分组
主要使用VLOOKUP函数实现
准备数据,确定分组的范围和标准(阈值是分组范围中的最低值)--》输入函数VLOOKUP(A2,2:12,2),并复制公式到你需要的地方
因为VLOOKUP最后一次参数省略,默认是近似匹配
6.数据抽样
问卷调查两种方式,普查和抽样(一般使用抽样)
RAND函数(),返回0~1随机值,但是保持函数编辑状态不变,按下F9,生成的随机数永远保存,且不反回新的值
如果要返回大于1的整数,写法就类似Java里的random函数
取整数=INT(RAND(*10+60))整数的60~70随机数
随机完记得去重,如果样本不够,继续随机就好,直到满足要求