Python新手的数据批量处理教程(TXT文件)

最近想用python批量处理数据,把自己网上找答案的过程整理了一下,希望对大家有用。
问题:

一个文件夹中有38个txt文件,这38个txt的命名各不相同,要把这38个txt文件中的数据整合到一个txt中。

思路:

获取所有txt文件的名称、路径,然后用for循环遍历每个txt文件,进行处理。最后将处理后的数据合并。

先看下总体代码,后面有具体解释。

import pandas as pd 
import numpy as np 
import os
os.getcwd()  
os.chdir('/Users/Heihei/Desktop/EX2data/data')  
path = '/Users/Heihei/Desktop/EX2data/data'
os.listdir(path)

datalist = []
for i in os.listdir(path):
    if os.path.splitext(i)[1] == '.txt':   
        datalist.append(i)

df = pd.DataFrame()
for txt in datalist:
    data_path = os.path.join(path,txt)  
    df_txt = pd.read_table(data_path,index_col = False) 
    df_txt['sub_n'] = txt[:2]   
    df_txt_sx = df_txt[df_txt['split'].isin([1,2])]  
    df = pd.concat([df,df_txt_sx],axis=0, ignore_index=True) 

df.head(5) 
df.tail(5)  
df.shape  
df.isnull().sum()  
df.duplicated().sum() 

df.to_csv('/Users/Heihei/Desktop/EX2data/data/Total_data',index=False)

代码解释

1. 获取路径

#载入需要的模块
import pandas as pd 
import numpy as np 
import os
os.getcwd()  #获取当前工作路径,查看是否是自己的目标路径
os.chdir('/Users/Heihei/Desktop/EX2data/data')  #如果不是,改到目标路径
path = '/Users/Heihei/Desktop/EX2data/data'
os.listdir(path) #查看目标路径下有哪些数据

结果显示(中间有很多了txt我把它省略了):

['.DS_Store',
'01lwj.txt',
......
'38lym.txt']

由上面可以看到,出现了一个“ .DS_Store”文件。如果我们直接用os.listdir(path)进行循环,会报错。

“ .DS_Store” 文件是Mac OS系统的Finder 用来存储这个文件夹的显示属性的:比如文件图标的摆放位置。具体可以看这篇文章:http://mini.eastday.com/mobile/180317092251931.html#。 因此。我们需要重新建立一个不包含该文件的list,新的list只含有txt数据。

datalist = []
for i in os.listdir(path):
    if os.path.splitext(i)[1] == '.txt':     #选取后缀为txt的文件加入datalist
        datalist.append(i)
datalist  #查看datalist

os.path.splitext
把文件分为文件名和扩展名。比如os.path.splitext(a.txt)的结果为a 以及 .txt 。因此,os.path.splitext(i)[1]的意思就是取出文件的后缀名。
除了该函数外,还有一个os.path.split 的函数,该函数用来把路径分为文件名与文件目录,比如“/user/heihei/data.txt” ,经过作用后可以被分为“/user/heihei”和 “data.txt”

另外,注意python中的顺序。list[x:y] 是从第“x+1”个数(因为python的第一个数是0)开始,直到y结束(不包含y)。如list = [0,1,2] , list[1:2]的结果是[1]。

2. 循环合并数据

df = pd.DataFrame()
for txt in datalist:
    data_path = os.path.join(path,txt)    #列出path路径下目标文件的绝对路径,将其赋值给data_path
    df_txt = pd.read_table(data_path,index_col = False) #读取目标txt文件,不把原Data第一列作为索引
    df_txt['sub_n'] = txt[:2]    #取出前面的数值,并赋值给sub_n这一列(合并后我需要知道哪些数据来自哪个文件)
    df_txt_sx = df_txt[df_txt['split'].isin([1,2])]  #用isin方法进行数据筛选(我的数据中split一列有3个值,我只需要改列值为1,2的行,其他行不需要)
    df = pd.concat([df,df_txt_sx],axis=0, ignore_index=True)     #(将筛选后的数据加到df框中。axis=0表示上下合并,axis=1表示左右合并,ignore_index=True表示忽略原来索引。除了concat函数外,也可以用df.append实现,但是还要改索引,比concat方法会麻烦点)   

3. 检查合并完的数据

df.head(5)  #检查最开始5行数据
df.tail(5)   #检查最后5行数据
df.shape   #查看数据框行列是否和预期一样
df.isnull().sum()  #查看是否有缺失值
df.duplicated().sum() 查看是否有重复值

4. 保存数据

df.to_csv('/Users/Heihei/Desktop/EX2data/data/Total_data',index=False)
# index=False 表示不保存索引数据
#之后如果要读取的话,直接df.read_csv('Total_data', index_col=False)就能得到 df框。

公众号: 尔冬禾(PsyHeheihei),文章更新速度比这里稍微快一点,主要跟数据分析相关内容和一些个人思考。欢迎交流


参考资料:
1.Python读取/批量读取文件
2.python中split()、os.path.split()函数用法
3.【python】如何批量读取文件夹的所有文件数据,os模块与open函数结合使用实例
4.python中pandas.DataFrame排除特定行方法示例

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,835评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,900评论 2 383
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,481评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,303评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,375评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,729评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,877评论 3 404
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,633评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,088评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,443评论 2 326
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,563评论 1 339
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,251评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,827评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,712评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,943评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,240评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,435评论 2 348

推荐阅读更多精彩内容