合并工作薄的方法大体上有3种:
1)数据量少的时候,手动复制各表粘贴到一个表
2)使用WPS的合并表格功能:数据-合并表格;这个操作方便快捷,主要问题是收费,我2020年使用这个功能还未收费,2021年开始使用这个功能就需要购买会员了。不知道是否存在大数据杀熟,有些账号登录WPS合并表格功能是不收费的。
3)通过Power Query合并多个工作薄:
excel不能处理几十万条的数据量,使用Excel的插件Power Query可以做到
Excel 能存多少数据?Excel2003版本的xls格式文件可以支持最多65536行数据,Excel2007以上版本的xlsx格式文件可以支持1048576行数据。在导入超过65536行数据的文件时可以选择升级office版本后再进行导入或将文件格式保存为xlsx格式后再进行导入。信息量达到6万条的话,文件会相当庞大,运行缓慢,并频繁死机同时几十万条就不要想了,整理不了
那么如何通过Power Query合并多个工作薄?
纵观全网,我推荐 PowerBI星球的文章:掌握这些技巧,Power Query批量合并Excel再也不会出问题了//www.greatytc.com/p/9539db699b4a
下面是我操作的实践记录:
以批量汇总文件夹的Excel工作簿为例,
在这个文件夹中,有1月品牌、2月品牌、3月品牌三个Excel工作表,每个工作表包含2个sheet,sheet1是需要合并的表,sheet2不需要合并。
我们先在文件夹外建一个新表:表1 格式是xlsx
打开表1 数据-获取数据-自文件-从文件夹-找到我们放待合并工作表的文件夹。从这里也可以看出还能从数据库里获取数据。自文件-从工作薄 可以从一个工作表里合并工作薄
选中文件夹后 点击打开就看到下图
我们点击转换数据-合并并转换数据,不要点击组合选项
之后的操作步骤如下:
1、删除其他列:选中[Content],点击鼠标右键-删除其他列 或者选中[Content] 在标题栏删除列-删除其他列。你也可以根据需要保留部分列。
2、新建自定义列: 标题栏 添加列-自定义列
结果如图:
3、自定义列公式:=Excel.Workbook([Content],true) 看下没有语法错误
等号后边是一个M函数,用来提取表格里面的信息,大家一定注意,M函数是严格区分大小写的,不能将大小写混用,符号必须在英文输入法状态下输入
对于Excel工作簿文件,输入:=Excel.Workbook([Content],true)的含义是
导入到PowerQuery中的数据默认都是类型为binary类型,需要用函数将它解析出来
4、 展开自定义列 点击自定义列的展开按钮,取消使用原始列名作为前缀,确定
5、Item 筛选 要合并的sheet1,确定
6、 展开Data列 -选择你要的列名- 确定
7、左上角:文件-关闭并上载
8、ctrl+s 保存 结果如下表
这种算是手工合并数据,但相比自动合并,也就是输入一个简短的M函数,多点了几次鼠标而已,熟练操作后,整个过程不会超过一分钟。
@通过上面的描述和操作过程,涉及到两个常用的PowerQuery合并技巧:
1, 为了避免出现杂乱的查询文件,使用“转换数据”,手动合并;
2. 新建自定义列时,Excel.Workbook的第二个参数不要省略,当参数为true时,会自动将Excel的第一行用作标题,可以省去一个步骤。
并且在手动合并的过程中,灵活运用,可以方便的进行各种形式的数据合并。
@另外发现最右侧一列,点击文本前的叉就可以返回上一步操作
@最开始为什么不选择组合-合并并转换数据?
组合-合并并转换数据是大家最常用的操作方式,来看看这样做的结果是什么。
虽然完成了一键批量合并,非常快捷,但是左边查询栏多出很多不需要的查询,看着很乱,可是如果你想删除,是不是怎么也删除不掉?
这些查询PowerQuery执行合并操作时,默认操作过程留下的中间文件,当你点击"合并并转换数据"时,PowerQuery先根据其中一个文件作为示例,生成一个自定义函数,然后调用自定义函数,完成合并。
自动合并,除了会留下一堆杂乱的查询无法删除,还有个问题是,如果合并结果出错(出错的概率很高),需要修改示例文件或者自定义函数的代码,但是对于初学者是比较困难的,很多人不知道如何修改。
所以不建议使用默认的合并操作,在导入之后的预览窗口,推荐你使用“转换数据”
我们也可以合并文件夹中的某一类型数据。
@如果文件夹中的文件类型,不止一种,还可以选择按文件类型合并。
假如文件夹中既有Excel格式,还有csv、txt格式的数据文件,如果直接全部合并会报错,那么可以按类型分别单独合并。
依然在【源】这个步骤中,可以按数据格式来筛选。
csv、txt格式的数据合并技巧。
上面添加自定义列时用的是Excel.Workbook,是专门用来解析Excel格式的,当数据格式为csv或txt时,需要换个解析函数。
csv、txt格式本质上属于同一种类型,都可以使用这个函数Csv.Document,为了避免中文出错,一般情况下自定义列可以直接这样写:
=Csv.Document([Content],[Delimiter=",", Encoding=936])
其中Delimiter=","是对逗号分割的数据,如果你的源数据是其他符号分割,这里就改为相应的符号;中文编码一般为936,所以上面代码中用了Encoding=936来避免中文乱码的问题。
以上