pandas读取大于内存的文件
方法1, 设置chunksize, 分块读取
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
方法2, 使用iterator, 但是也需要设置chunksize
chunkSize = 10 ** 6
reader = pd.read_csv(filename, iterator=True)
while True:
try:
chunk = reader.get_chunk(chunkSize)
process(chunk)
except StopIteration:
break
相比较而言, 第一种方法更简介一些, 推荐使用
参考连接