前言
最近帮忙打杂,需要批量处理文件,因此写了脚本,不过后来发现目录数量增加了,再一个个修改目录名重新运行有的麻烦,于是研究了下python操作文件系统的方法。毕竟python方便移植,不需要像C++那样需要编译,对于VC依赖用户而言,换操作系统的话还要改下VS的VC运行库的配置。参考我之前一篇C++遍历目录的博客Linux和Windows的遍历目录下所有文件的方法对比
相应python模块的方法
思路很简单,首先遍历目录下所有文件(这里指广义的文件),然后对文件进行判断(属性是否为目录,后缀是否为xxx)。而python提供的功能更为强大,利用os模块的walk方法能直接遍历当前目录和整个子目录的文件。
walk(top, topdown=True, onerror=None, followlinks=False)
Directory tree generator.
For each directory in the directory tree rooted at top (including top
itself, but excluding '.' and '..'), yields a 3-tuple
dirpath, dirnames, filenames
dirpath is a string, the path to the directory. dirnames is a list of
the names of the subdirectories in dirpath (excluding '.' and '..').
filenames is a list of the names of the non-directory files in dirpath.
Note that the names in the lists are just names, with no path components.
To get a full path (which begins with top) to a file or directory in
dirpath, do os.path.join(dirpath, name).
后面3个自定义选项暂时可以不考虑(详细可以参考help(os.walk)),top即顶层目录,walk返回一个生成器,迭代每个生成器会返回一个三元组(dirpath, dirnames, filenames)
,依次代表目录名,该目录下的目录类型文件列表(不包括.和..),该目录下的非目录类型文件列表。
>>> import os
>>> for parent, dirnames, filenames in os.walk('./cpp'):
... for dirname in dirnames:
... print('[DIR]', dirname)
... for filename in filenames:
... print('[FILE]', filename)
... break
...
[DIR] string
[DIR] lists
[DIR] bitree
[DIR] reference
[DIR] threads
[FILE] test.cc
[FILE] binary_tree.c
[FILE] shared_ptr.cc
[FILE] get_arraysize.cc
[FILE] subset_all.cc
[FILE] bind_demo.cc
[FILE] a.out
[FILE] binary_tree.cpp
上述代码即遍历当前目录的所有文件并打印文件名,若去掉break则可以深层次遍历所有子目录。
至于后续操作则借用下列方法即可
- os.listdir(path=None)
获取目录下所有文件名,若未指定path则默认路径为当前目录。类似Linux下的ls命令 - os.path.join(a, *p)
用'/'或者其他连接符(比如windows下为'\')将路径列表连接起来 - os.path.isdir(s)
s为完整路径,若s为目录类型则返回True - os.path.splitext(p)
p为文件路径(不一定是完整路径),返回二元组(root, ext),ext即后缀
函数式编程实现
最近刚接触了下python对函数式编程的支持,代码确实优雅不少,对性能没有严格要求的情景下这种风格的代码看起来非常舒服。
def subdir_list(dirname):
"""获取目录下所有子目录名
@param dirname: str 目录的完整路径
@return: list(str) 所有子目录完整路径组成的列表
"""
return list(filter(os.path.isdir,
map(lambda filename: os.path.join(dirname, filename),
os.listdir(dirname))))
def file_list(dirname, ext='.csv'):
"""获取目录下所有特定后缀的文件
@param dirname: str 目录的完整路径
@param ext: str 后缀名, 以点号开头
@return: list(str) 所有子文件名(不包含路径)组成的列表
"""
return list(filter(
lambda filename: os.path.splitext(filename)[1] == ext,
os.listdir(dirname)))
话说这种)))))...风格的代码自从N年前学autolisp时才写过,不知道缩进风格对不对,先这样吧。