在做文本的数据预处理时,我需要把数据集里相同business_id的数据分为一组并单独保存。
读取数据,使用groupby对数据按business_id这一标签进行分组
review_csv=pd.read_csv('review.csv',encoding='gb18030').head(200)
review_df=pd.DataFrame(review_csv,columns=['business_id','description']).dropna()
review_group=review_df.groupby('business_id')
输出分组结果
for business_id, description in review_group:
print(business_id)
print(description)
分组后处理数据
使用file_name.get_group('index') 来按分组后标签来获取数据。
for group in review_group:
group[1].to_csv(str(group[0])+'.csv')
上述代码用来将分组数据分组保存为当前目录下的.csv文件