用python处理信息时经常需要面对doc/docx文档,这两者机制还不一样,偏偏拿到的文件既有doc格式又有docx的,很头疼。
python的第三方库python-docx适用于写入,但对于读取信息并不友好(python-docx会把每一行解析成一个Document对象,涉及到多行信息提取就无能为力)
最后想了想,把word文档统一转化成python可以直接处理的txt会方便很多。翻墙找了很久,终于找到一个免费干净的word文档转txt程序,如下:
软件界面
几千个文档几分钟便转化好了
下载地址:
http://www.multidoc-converter.com/en/download/index.html