python从word中读取规则数据存到excel中

首先思路是用正则表达式把有规则的word字符读取到python中,list或者数组之类的,然后再存到Excel中。因为是有规则的参考文献类的word所以难度不大,但是还是搞了一下午,最后只是凑合用,还有好多bug没有解。。。

import numpy as np
from docx import Document
import pandas as pd
from collections import OrderedDict
import csv
import re
doc = Document("CV1819last.docx")
for i, paragraph in enumerate(doc.paragraphs[:55]):
    print(i, paragraph.text)

word中文件的格式如图,类似一个标准的参考文献格式,而我的需求是按照作者,论文名,期刊名,时间,期卷号存到一个excel中。
1.首先,word的python读取每次读的是块。
2.通过对格式的分析,确定了利用,来分割字符串,然后再用.来分割上次分割的第一个字符串,这对于期刊论文很适用,对于会议论文的可用性就弱很多。
3.数据的传递使用的是list而不是字典,如果有机会的话,可能字典更好用,只是时间有限。

完整代码如下
import numpy as np
from docx import Document
import pandas as pd
from collections import OrderedDict
import csv
import re
doc = Document("CV1819last.docx")
#for i, paragraph in enumerate(doc.paragraphs[:55]):
    #print(i, paragraph.text)


# 保存最终的结构化数据
question_type2data = OrderedDict()
sum = np.zeros(shape=(15,8))
i = 0
Qiegelinesum1=[]
Qiegelinesum2=[]
# 从word文档开始遍历数据
for paragraph in doc.paragraphs[:67]:
    #  将全角字符转半角字符,并给括号之间调整为中间一个空格
    line = paragraph.text.replace(
        "(", "(").replace(")", ")").replace(".", ".").replace(",", ",")
    # 对于空白行就直接跳过
    if not line:
        continue
    Qiegeline = []
    #Qiegeline = re.split('\.|,', line)#同时切割.和,隔开的字符串
    Qiegeline = line.rsplit(',', 2)#反向两个,隔开的
    Qiegeline1 = Qiegeline[0].split('.', 2)
    #取Qie1 list的第一个字符串,用.隔开
    Qiegeline.remove(Qiegeline[0])
    Qiegelinesum =Qiegeline1+Qiegeline
    Qiegelinesum1.append(Qiegelinesum)
    Qiegelinesum2 = Qiegelinesum1+Qiegelinesum
    #sum[i][:]=Qiegelinesum1[[i]]+Qiegelinesum[[i]]
#将list保存为csv文件
    #Qiegelinesum = list(map(list, zip(*Qiegelinesum)))
with open(r"friendInfo1.csv", 'w+', newline='') as file:#每次需要debug运行才可,在这个位置停一下再继续
    writer = csv.writer(file)
    writer.writerows(Qiegelinesum1)

切割字符串

str.split(sep, [,max])#,sep可以指定切割的符号,max可以指定切割的次数(次数不常用)

python自带的split
并且支持反向切割,str.rsplit()语法和正向一致
2.re库带的split,自认为的亮点是可以支持吧不同的符号作为切割位点,例如,

re.split('\.|,', line)#同时切割.和,隔开的字符串

正则表达式

正则表达式用反斜杠字符 ('') 表示特殊形式,或是允许在使用特殊字符时,不引发它们的特殊含义。

re.match与re.search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配

检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。
语法:

re.sub(pattern, repl, string, count=0, flags=0)

官方详细正则:https://docs.python.org/zh-cn/3/library/re.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容