在成绩合并时,由于班级多,重名现象比较常见,加上部分学科老师喜欢在原始成绩上排序、求平均值等一些简单的统计,还有缺考学生处理方法不一致,导致学生名单不一致,直接复制各科成绩肯定会出错。利用vba字典功能去重可轻松合并各科成绩,比如:以班级、姓名、考号为关键字,在合并成绩时,重名的问题,完全重复的学生成绩都得到了解决。下面探索下用Python实现vba的这一功能。
成绩表的表头列名为:'班级', '姓名', '考号', '考场', '座位号', '语文', '数学', '外语', '物理', '化学', '生物', '政治', '历史', '地理', 'Unnamed: 14', 'Unnamed: 15'
在成绩表中总共969位学生。其中有一位学生陈美,以班级,姓名为关键字,她是重复的,以班级,姓名、考号为关键字,她不是重复的。
先以班级,姓名为关键字,用pandas实现
第一步,生成输出结果文件rs.xlsx和text2.txt用于记录程序过程中的一些输出,便于调试。
import numpy as np
import pandas as pd
import os
from os.path import exists
#改变当前的路径
os.chdir(r'D:\test\source2')
#将当前目录下的文件以列表的形式存放
file = os.listdir("./")
result = "rs.xls"
if exists(result):
os.remove(result)
读入要合并的excel文件中,并将表头列名输到text2.txt
f_0 = pd.read_excel(file[0])
print(df_0.columns)
print('表头列名:\n',str(df_0.columns),file=open(r'D:\test\test2.txt', "a"))
第二步,处理关键字
先输出关键字参考到test2用于在程序运行过程中要输入关键字时,可复制、粘贴
print("关键字参考: ['班级','姓名']\n",file=open(r'D:\test\test2.txt', "a"))
keyw=eval(input("请输入合并时的关键字,比如:班级+姓名,输入,['班级','姓名']:"))
print('关键字:\n',str(keyw),file=open(r'D:\test\test2.txt', "a"))
第三步,构建字典数据结构
data_dict2=df_0.set_index(keyw).T.to_dict('list')
最后,输出到excel表
直接输出,excel表中的列名为关键字,因此需先转置,然后处理列名
1.处理列名
colf=df_0.columns.tolist()#将列表名转成字典
col_list = [item for item in colf if item not in keyw] + [item for item in keyw if item not in colf]#在列表名中减去关键字
2.转置输出
d1=pd.DataFrame(data_dict2)
d1=d1.T
d1.rename(columns=dict(enumerate(col_list)),inplace=True)
d1.to_excel(r'D:\test\rs.xls', index=True)
完整代码
import numpy as np
import pandas as pd
import os
from os.path import exists
#改变当前的路径
os.chdir(r'D:\test\source2')
#将当前目录下的文件以列表的形式存放
file = os.listdir("./")
result = "rs.xls"
if exists(result):
os.remove(result)
df_0 = pd.read_excel(file[0])
print(df_0.columns)
print('表头列名:\n',str(df_0.columns),file=open(r'D:\test\test2.txt', "a"))
print("关键字参考: ['班级','姓名']\n",file=open(r'D:\test\test2.txt', "a"))
keyw=eval(input("请输入合并时的关键字,比如:班级+姓名,输入,['班级','姓名']:"))
print('关键字:\n',str(keyw),file=open(r'D:\test\test2.txt', "a"))
colf=df_0.columns.tolist()#将列表名转成字典
col_list = [item for item in colf if item not in keyw] + [item for item in keyw if item not in colf]#在列表名中减去关键字
print(col_list)
data_dict2=df_0.set_index(keyw).T.to_dict('list')
d1=pd.DataFrame(data_dict2)
d1=d1.T
d1.rename(columns=dict(enumerate(col_list)),inplace=True)#处理转置后的列名
d1.to_excel(r'D:\test\rs.xls', index=True)
效果
原始表
总结:
实现了目标,以班级,姓名为关键字,陈美只有一个名字,从结果2图可看到人数少了一人。
不足:输出表中,excel表第一列有合并单元格,这是不想出现的情况,对pandas的使用是小白,不明白,也没能力解决,请读者指点迷径,在此感谢。
写得不好,请批评指正。