用Python实现科研自动化

这个学期如期开课了,虽然是在家里。这学期我导开了一门《高等教育管理专题研究》,一口气给了11个专题。为了对这11个专题的文献分布情况有一个粗略的印象,我觉得都得找相关的文献来看看,但是11个专题都要重新检索一遍,重复性工作让人头秃……于是,我写了个python脚本,自动生成各个主题的关键词和引文分布情况的报告,效果如下图。

看到点击“运行”不到3秒钟就自动生成了6000字左右“像模像样”的报告,不禁流下激动的泪水。

要是有一天能写个程序能将我的想法整理成论文就好了[狗头]。为了留存这个美好的幻想,我把报告生成的思路记录下来,权当为以后积累点技术基础。编程思路包括:提取PDF内容、CSSCI文献题录数据的格式处理、关键词词频计算、引文数据统计、关键词共被引网络生成、word的自动编写与插入(包括样式、表格等)

一、报告结构的拟定

写报告的思路比较固定,我个人的体会是:叙述要求、描述数据和展示结果。那么每个一级标题下,先附上老师的要求,然后描述数据在哪里下载的,最后将结果数据的图表展示出来。按照这个思路走下来了,将每个部分的模板编写为如下这样。

确定了报告框架之后,下面的事情便变得简单,把内容填上去,在写个循环语句,报告就完成了,下面说的都是如何填空的事情。

二、PDF内容提取

我导给了一个PDF,需要把PDF的一级标题和二级标题的内容提取出来,填充themeName和themeKeyword部分。

在python中,提取PDF内容的包有pdfminer、tabula、pdfplumber等(引自:Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比),都大同小异。经过对比选择了pdfplumber,没安装的话需要先安装一下。

pip install pdfplumber

主要代码如下。

pdfPath = 'Auto_data/course_text/2019-2020春季学期《高等教育管理专题研究》拟研究专题.pdf'
pdf = pdfplumber.open(pdfPath)
for p in pdf.pages:
    test = p.extract_text().split('\n')

通过上述代码就可以提取PDF的所有内容。但是想要正确提取内容还有其他的工作,使用正则表达式根据标题的特点提取一级和二级标题内容、编程将全角标点变成半角标点、去掉标题中的中文和英文标点等、将一级标题和二级标题内容建立对应关系等。非主干代码占了所有代码量的80%以上,真特么的符合“二八法则”。

三、文献题录数据下载与提取

在一个主题词下载之前,先确定该主题的文献检索方式。把下图的检索方式使用代码进行整理,便可以得到searchWord和searchWay。

themeKeyword = '、'.join(themes_keypoints[ii])
searchWord, searchWay = search_type(ii, searchWord_group)

def wordM(word):
    word = "“" + word + "”"
    return word

def search_type(i, searchWord_group):
    word_group = searchWord_group[i]
    slen = len(word_group)
    if (slen > 1):
        endLen = slen - 1
        searchWay = ',检索方式为:'+ word_group[endLen]
        searchWord = '、'.join(word_group[:endLen])
    else:
        searchWord = word_group[0]
        searchWay = ''
    return searchWord, searchWay

随后,在CSSCI官网,下载文献题录数据。

下载下来的数据是这样的。

对了,原来以为有数据规模会很大(并不大),所以使用如下代码生成了一个Windows批处理文件,可以达到一键生成文件夹目录的效果。

file_name = 'Auto_data/lite_data/themes_list.bat'
with open(file_name, "w") as f:
    index = 0
    for i in range(len(themes_group)):
        index = int(index) + 1
        if index < 10: # 记得加0,不然不按顺序
            index = '0' + str(index)
        else:
            index = str(index)
        contant = 'md '+ index + '_' + themes_group[i] + ' '
        f.writelines(contant)
        f.writelines('\n')

在下载得到数据后,需要对数据信息进行提取,提取的信息包括:标题、第一作者、关键词、发表时间、参考文献。标识符如下。

matching_columns = ['【来源篇名】','【第一作者】','【关 键 词】','【年代卷期】','【参考文献】']
separator = '-----------------------------------------------------------------------'

使用正则表达式匹配相关信息,使用.replace函数去掉标识符,再进行其他操作,将信息放入字典中,便完成了信息提取工作。核心代码如下:

for i in range(len(matching_columns)):
    m = matching_columns[i]
    isMatching = re.match(m, curData) #把标题、作者等信息放入字典中
    if isMatching:
        if (i == 0):
            data_dict['article'] = curData.replace(m,'')
        elif (i == 1):
            data_dict['author'] = curData.replace(m,'')
        elif (i == 2):
            data_dict['keyword'] = curData.replace(m,'')
        elif (i == 3):
            data_dict['year'] = curData.replace(m,'').split(',')[0]
        elif (i == 4):
            isReference = 1
isSeparator = re.match(separator, curData)

在完成信息提取之后,生成了这一个主题的题录信息字典data_dict,通过len(data_dict)可以知道这一个主题一共有多少条文献题录数据。

searchNum = len(data_dict)

四、关键词与引文数据统计

关键词的词频计算使用的是类似Excel的数据透视表的方法写成的,这一点在《如何用python表白》一文中已经讲到,计算函数如下。其中,words_count.head(10)是输出到word中的排名前10的关键词,len(set(all_words))是关键词的数量,对应word中的词频分布表和关键词个数keywordNum。

def all_words(df):
    all_words = []
    for w in df['keyword']:
        w_group = w.split('/')
        all_words.extend(w_group)
    print('关键词次数:',len(all_words))
    print('关键词个数:',len(set(all_words))) #使用set方法
    print('\n')
    
    df_word = pd.DataFrame({'word': all_words})
    words_count = df_word.groupby(by=['word'])['word'].count()
    words_count = words_count.to_frame()
    words_count.columns = ['count']
    words_count = words_count.sort_values(by='count', ascending=False)
    print(words_count.head(10))
    return all_words, words_count, len(set(all_words))

引文数据的提取编程思路类似, references_count.head(10)是输出到word中的被引量排名前10的参考文献。

def all_references(df):
    all_references = []
    for r in df['reference']:
        r_group = r.split('/')
        all_references.extend(r_group)
    print('\n')
    print('引用文献次数:',len(all_references))
    print('引用文献篇数:',len(set(all_references))) #使用set方法
    
    df_references = pd.DataFrame({'reference': all_references})
    references_count = df_references.groupby(by=['reference'])['reference'].count()
    references_count = references_count.to_frame()
    references_count.columns = ['count']
    references_count = references_count.sort_values(by='count', ascending=False)
    
    for index in list(references_count.index):
        if not isRef(index):
            references_count.drop(index)
    
    print(references_count.head(10))
    return references_count

五、关键词共现网络的生成

由于需要分析,关键词共现网络以截图的方式放入报告中,有一些结果还是很好的,可以说很好看了,比如下面这张,很容易给像我这样的博士研究生以思考的启发,比如可以这么说:“创新创业教育的生长,根基在于创新创业活动的开展,课程体系是连接两者的关键因素。此外,创新创业教育还涉及教学改革、教学组织模式、高校人才培养、教学策略的运用等多方面的内容……”

其他的也有好看的,比如“产教融合”的图,中心词、核心词和外围词都十分完整,十分便于分析。

六、word的自动编写

当我们所有的内容都准备好之后,就可以考虑word的自动生成了。我使用的模块是python-docx,没安装的话需要事先安装一下。

pip install python-docx

安装完成后,导入自己已经调好样式的空白word页面。

document = Document('Auto_data/result/input.docx')

先将我们的内容以字符串的形式存储在几个变量中。

first_para = '专题下的思考方向包括:'+ themeKeyword + '。'
second_para = '使用CSSCI进行检索,检索词为:'+ str(searchWord) + str(searchWay) + '。共下载文献题录数据' + str(searchNum) + '条,所有文献一共涉及关键词' + str(keywordNum) + '个,词频分布如下。'
third_para = '关键词共现网络如下。'
fourth_para = '被引用次数排名前10的文献如下。'

使用document.add_paragraph方法就可以将我们的内容以段落的形式插入word中,style可以选择样式,例如'Heading 2'是指二级标题样式,'Normal'是指正文样式。

t1 = document.add_paragraph(themeName, style = 'Heading 2')
p1 = document.add_paragraph(first_para, style = 'Normal')
p2 = document.add_paragraph(second_para, style = 'Normal')

表格的插入比较麻烦。先使用document.add_table生成题头。然后使用.add_row().cells方法增加行,使用for循环进行对表格单元格进行赋值,完成表格的生成。

table1 = document.add_table(rows=1, cols=4, style='网格型1')
hdr_cells = table1.rows[0].cells
hdr_cells[0].text = '关键词'
hdr_cells[1].text = '词频'
hdr_cells[2].text = '关键词'
hdr_cells[3].text = '词频'
table_size = int(maxKeyword/2)
for i in range(table_size):
    another_i = i + table_size
    row_cells = table1.add_row().cells
    row_cells[0].text = t1_data.index[i]
    row_cells[1].text = str(t1_data['count'][i])
    row_cells[2].text = t1_data.index[another_i]
    row_cells[3].text = str(t1_data['count'][another_i])

之后,使用for循环,将11个专题的内容都放入word中,使用document.save保存word,这样,我们6000字的报告就生成啦!

document.save('Auto_data/result/11个专题下的文献计量分析.docx')

写在后面

在思考编程过程的时候,决定这并不是什么难事,下载数据、提取信息、生成word就完事了。

但是……想法一时爽,编程编断手,虽然报告的生成仅仅需要不到3秒钟,但是累计编程时间超过9个小时,中间涉及正则表达式、字符的unicode编码等新知识点,以及许多大大小小的bug,太占用专业学习的时间。这种报告只是信息的简单叠加,并不具备自主分析的效果,论文还是得自己写[微笑]。能实现一个想法总还是一件开心的事情,程序最大的特点就是复用性,以后就当做写文献综述前的预处理流程吧。大家如果对报告或者源码感兴趣,欢迎在后台留言与我交流哇!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容