Python小工具之读取文件夹下pdf文件及获取pdf页数

#coding:utf-8
import os  
import pandas as pd  
from PyPDF2 import PdfReader  
  
# 指定要读取的文件夹路径  
folder_path = r'E:/临时文件/'
  
# 获取文件夹下的所有PDF文件  
pdf_files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]  
  
# 存储PDF文件的页码信息  
pdf_page_info = []  
  
# 遍历每个PDF文件  
# for file_name in pdf_files:  
#使用enumerate()函数来同时获取循环的次数和元素值,index来写编号
for index,file_name in enumerate(pdf_files): 
    file_path = os.path.join(folder_path, file_name)  
    with open(file_path, 'rb') as file:  
        # 创建PDF阅读器对象  
        reader = PdfReader(file)  
        # 获取PDF文件的页数  
        # num_pages = reader.getNumPages()  
        num_pages = len(reader.pages)  
        # 将文件名称、页码数量和备注添加到列表中  
        # pdf_page_info.append((os.path.splitext(file_name)[0], file_name, num_pages, ''))  
        pdf_page_info.append((index+1, file_name, num_pages, ''))  
  
# 创建Excel文件并输出数据  
df = pd.DataFrame(pdf_page_info, columns=['编号', '文件名称', '页码数量', '备注'])  
df.to_excel('output.xlsx', index=False)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容