PDF页面分割删除超简单:怎么用python分拆PDF大文件?

PDF页面分割删除超简单:怎么用python分拆PDF大文件?

最近整合有朋友需要问我,怎么把一个200多个的PDF文件,分割成10个小的PDF,每个小的PDF10也呢?其实,使用python就容易就能完成,超级简单。


PDF 文档格式可移植文档格式(PDF)属于最常用的数据格式,因此在工作中经常就会涉及处理 pdf 文件的处理,因此掌握一直快速处理方法十分必要。目前python 支持处理PDF的库主要有 PyPDF2,pyPdf ,pdfminer3k , PyMuPDF等,他们都可以进行PDF文件的读、写、分割、合并和PDF文件转换等多种操作,今天主要讲一下MuPDF处理PDF的方法。

PDF 文档格式可移植文档格式(PDF)属于最常用的数据格式,因此在工作中经常就会涉及处理 pdf 文件的处理,因此掌握一直快速处理方法十分必要。目前python 支持处理PDF的库主要有 PyPDF2,pyPdf ,pdfminer3k , PyMuPDF等,他们都可以进行PDF文件的读、写、分割、合并和PDF文件转换等多种操作,今天主要讲一下MuPDF处理PDF的方法。

PDF大文件,怎么根据PDF页面数、均等的拆分成多个PDF文件呢?

这里主要是完成PDF文件的拆分,然后保存到新的PDF当中去,方法如下:

### PDF文件拆分defpdf_segment(pdf_path:str, seg_num =10, output_dir=os.getcwd()):""" PDF 文件拆分

        pdf_path: pdf 路径

        seg_num: 指定拆分后PDF页数

        output_dir: 拆分结果保存位置

    """pdf_doc = fitz.open(pdf_path)    num_page = pdf_doc.pageCount## 获取PDF文件总页数pages = [iforiinrange(0, num_page, seg_num)]fori, pages_startinenumerate(pages):        pages_end = pages_start + seg_num -1dist_pdf = fitz.open()        dist_pdf.insert_pdf(pdf_doc, from_page=pages_start,to_page=pages_end)        pdf_name = os.path.basename(pdf_path)        savepdf = os.path.join(output_dir,f"{os.path.splitext(pdf_name)[0]}_{i}-{pages_start}-{pages_end}.pdf")        dist_pdf.save(savepdf)        print(f"结果保存在:{savepdf}")


示例:目前原始《天才在左疯子在右》PDF 266页,希望拆分成每个10页左右的小PDF文件。

2.怎么删除PDF指定的页面?

示例:目前原始《天才在左疯子在右》PDF 266页,希望删除PDF当中的第1~5页和第8页和第11页,怎么处理呢?示例方法如下:

doc.delete_pages(500, 519)

doc.delete_pages(from_page=500, to_page=519)

doc.delete_pages((500, 501, 502, ... , 519))

doc.delete_pages(range(500, 520))

del doc[500:520]

del doc[(500, 501, 502, ... , 519)]

del doc[range(500, 520)]

#### 删除PDF指定页面defdelete(pdf_path:str, pageList, output_dir):"""

        PDF页面删除, pageList: 删除页面列表

    """pdf_doc = fitz.open(pdf_path)    pdf_name = os.path.basename(pdf_path)    savepdf = os.path.join(output_dir, pdf_name)    pdf_doc.delete_pages(pageList)    pdf_doc.save(savepdf)

原始PDF删除第1~5页和第8页和第11页 后的结果:

小伙伴们,是不是很简单呢?本次就分享到这里,欢迎点赞、收藏、转发。

今天就分享到这里, 我是paperClub。

备注:WeiXin 搜索paperClub, 添加关注并回复【666】即可获取使用方法。 

1. 感谢各位小伙伴的关注, 您的点赞、鼓励和留言,都是我深夜坚持的一份动力,无论褒贬,都是我们行进途中最好的回馈,也都会被认真对待。

2. 我将持续分享各类、好玩且有趣的算法应用及工程和项目,欢迎分享和转发。沟通、学习和交流,请与我联系,虽然平时忙,但留言必回,勿急,感谢理解!

3. 分享内容包括开源项目和自研项目,如在引用或使用时,考虑不周、遗漏引用信息或涉及版权等,请您及时联系。如果您对某些内容感兴趣,我们可以一起讨论、交流和学习。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容