阅读科学文献的方法及工具总结

搜索文献

一般很多已投稿还没有发表的文章会放到arxiv上让大家知道这方面的研究内容已经有人做了,不必再做重复性的工作。所以arxiv是一个搜论文的好地方。arxiv-sanity是针对arxiv的搜索引擎。

arxiv-sanity

优点

  • 可以预览文章
  • 可以针对某个文章找出类似的文章
  • 可以将自己感兴趣的文章加入自己的library,保存阅读历史
  • 可以根据library中的文章推荐文章
  • 可以看到其他人对文章的看法
  • 可以看到Twitter上那些人提到了这些文章以及对该文章的看法
  • 可以看哪些文章最多被收藏,有助于发现优秀的文章

缺点:

  • 只能搜索到被arxiv收录的文章

具体可以参考:如何用人工智能帮你找论文?

NLP领域的文献检索

自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合。与其他计算机学科类似,NLP/CL有一个属于自己的最权威的国际专业学会,叫做The Association for Computational Linguistics 即ACL,这个协会主办了NLP/CL领域最权威的国际会议,即ACL年会,ACL学会还会在北美和欧洲召开分年会,分别称为NAACL和EACL。除此之外,ACL学会下设多个特殊兴趣小组(special interest groups,SIGs),聚集了NLP/CL不同子领域的学者,性质类似一个大学校园的兴趣社团。其中比较有名的诸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。这些SIGs也会召开一些国际学术会议,其中比较有名的就是SIGDAT组织的 EMNLP (Conference on Empirical Methods on Natural Language Processing)和SIGNLL组织的CoNLL(Conference on Natural Language Learning)。此外还有一个International Committee on Computational Linguistics的老牌NLP/CL学术组织,它每两年组织一个称为International Conference on Computational Linguistics (COLING)的国际会议,也是NLP/CL的重要学术会议。NLP/CL的主要学术论文就分布在这些会议上。

作为NLP/CL领域的学者最大的幸福在于,ACL学会网站建立了称作ACL Anthology的页面,支持该领域绝大部分国际学术会议论文的免费下载,甚至包含了其他组织主办的学术会议,例如COLING、IJCNLP等,并支持基于Google的全文检索功能,可谓一站在手,NLP论文我有。由于这个论文集合非常庞大,并且可以开放获取,很多学者也基于它开展研究,提供了更丰富的检索支持,具体入口可以参考ACL Anthology页面上方搜索框右侧的不同检索按钮。除了获得论文外还可以看到作者的演讲视频。

下面列出NLP领域的一些顶会

简称 全称 地址 出版社
ACL Annual Meeting of the Association for Computational Linguistics http://dblp.uni-trier.de/db/conf/acl/ ACL
EMNLP Conference on Empirical Methods in Natural Language Processing http://dblp.uni-trier.de/db/conf/emnlp/ ACL
NAACL The Annual Conference of the North American Chapter of the Association for Computational Linguistics http://dblp.uni-trier.de/db/conf/naacl/ NAACL
COLING International Conference on Computational Linguistics http://dblp.uni-trier.de/db/conf/coling/ ACM
CoNLL Conference on Computational Natural Language Learning http://dblp.uni-trier.de/db/conf/conll Association for Computational Linguistics

ACL为了扩大自己的影响力还创办了一些期刊:

这两份期刊也都是开放获取的

国内的一些期刊

序号 名称
1 中文信息学报
2 CCL
3 NLPCC
4 中国科学、计算机学报、软件学报、自动化学报等国内顶级学报

DBLP
DBLP,即Digital Bibliography & Library Project的缩写,是计算机领域内对研究成果以作者为核心的一个强大的计算机类英文文献的集成数据库系统。该系统提供根据作者、期刊、会议等进行论文的检索功能,用户也可以根据年份查看会议、期刊当年收录的论文,多数的论文都提供了下载链接及Google,Google Scholar,MS Academic Search等网站的搜索链接
更多的相关会议及搜索方法可以参考

筛选文献

  • 期刊质量


    NLP领域高质量会议或期刊
  • 被引用次数
    被引用次数有个缺陷就是时代越久远,被引用次数越高。所以可以利用互引分析。如果是知网用户的话,可以参考这篇文章:如何快速筛选到想要的核心文献?
  • 发表组织
    比如做某个课题的组织是业内大牛,那这个组织发表的文章多半是高质量的
  • 是否有源代码
    如果有源代码,那文章的可信度更高,而且有利于复现

阅读文献

阅读顺序

阅读文献按照如下顺序来读

  • 摘要
  • 引言
  • 结论与图表
  • 文章主体
    通过摘要其实就大致知道了这个文章在讲什么,如果对这个领域不熟,可以看一下引言,因为引言讲述了领域背景以及要解决的问题。通过看图表和结论可以判断出是否能解决自己的问题。如果通过了前三步的筛选确实是需要精读的才去读主体部分。

阅读方法

阅读的时候带着问题去读,大胆猜测,然后去文章里找能印证你猜测的依据。这样更能明白作者的思想脉络,就算是猜错了也没关系,可以从文章中找到蛛丝马迹,纠错后印象更深刻。

进入不熟悉的领域怎么办

1.找出本领域相关的30-40篇论文。可以通过关键字+survey / review / tutorial / 来搜索。也有一些出版社专门出版各领域的综述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它们发表了很多热门方向的综述,如文档摘要、情感分析和意见挖掘、学习排序、语言模型等。
如果方向太新还没有相关综述,一般还可以查找该方向发表的最新论文,阅读它们的“相关工作”章节,顺着列出的参考文献,就基本能够了解相关研究脉络了。当然,还有很多其他办法,例如去videolectures.net
上看著名学者在各大学术会议或暑期学校上做的tutorial报告,去直接咨询这个领域的研究者,等等。

  1. 反复读过该领域内30~40篇论文的Abstract 和 Introduction,回答这两个问题:
    • 在这领域内最常被引述的方法有哪些?
    • 这些方法可以分成哪些主要派别?
      根据Abstract 和 Introduction把领域内最常被引述的论文补齐,并按照派别把文章归类。每一派别的文章都按照日期排好顺序。分好类排好序以后。针对每一派别,阅读两边,第一遍关注这一派别要解决的问题,方法,以及优点。但论文本身一般不会说自己的缺点,所以再读第二遍,看本派别对其他派别的看法(缺点)。这样两遍读完后其实对各个派别的方法,解决的问题,优点,缺点都知道了,一定要记录下来。最好是存到excle表里。
  2. 做完上面两步后,其实对领域已经有个大致了解了,然后在看看自己搜索的keywords是否准确,补全或调整关键字再次搜索,将文章补齐.并将这30篇论文里与所研究课题离得比较远的删除掉,只保留大约20篇文章做后续工作
  3. 根据第二步整理出来的东西回答一下问题:这个领域内大家认为重要的关键问题有哪些?有哪些特性是大家重视的优点?有哪些特性是大家在意的缺点?这些优点与缺点通常在哪些应用场合时会比较被重视?在哪些应用场合时比较不会被重视?然后,你就可以整理出这个领域(研究题目)主要的应用场合,以及这些应用场合上该注意的事项
  4. 将第三步整理出来的文章按照派别分好类,一个派别一个派别的按照时间先后顺序读取论文的main_body.
  5. 读取main_body的时候可能会有一些文章不那么易懂,没有关系,可以阅读同派别的其他文章,这些文章在讲述同一类问题,就会出现有的好懂有的不好懂,读取好懂的就可以.

对文献做笔记

笔记要点.png

可以建一个excel表格,表格里面列出文章的发表地,发表组织,文章题目,主题,目的,要解决的问题,解决方案,优点,缺点,使用的数据集,在数据集上的表现,code。有了这些以后方便后续查看,也有助于按照自己感兴趣的点对文章组织分类。

值得观看的视频或阅读的文章

怎样阅读NLP论文:这是重庆大学的一个老师发表的一个视频,视频里从文献查找,筛选,阅读,记录等各方面介绍了NLP领域应该如何阅读论文
台湾清华彭明辉教授的研究生手册:很好的一篇文章,强烈推荐
如何高效读论文?:本篇文章中引用了它比较多的内容
如何有针对地高效地阅读一篇学术论文?:知乎上大家的看法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354

推荐阅读更多精彩内容