人工智能时代的科学研究

最近几年,以深度学习为代表的人工智能技术迎来了一次革命。目前,人工智能最为热门的方向在图像识别、自动驾驶、语音识别等领域。和这些领域层出不穷的明星初创公司相比,人工智能技术在科研领域的应用则相对少有人关注。然而,在这一领域,其实是有不少非常有趣的研究成果,本文将尝试进行一些总结。

科研领域人工智能技术的应用前景

科研可以说是人类探索未知的最前沿战场,然而,和很多人所想象的不同的是,科研领域的生产力发展水平其实是相当低的。这一方面是由于科研领域众多,研究方向分散,没法规模化;另一方面是作为科研主体的研究生们价格十分低廉,采用手工作坊模式比较具有性价比。

但是科研发展到今天,寻找更有效率的工具既是美好的期望也是刻不容缓的现实需求。这是因为在大家的不懈灌水之下,现在科研论文的产出速度已经非常快了。即使是一个非常小众的领域,一个人阅读文献的速度也很难跟上新文献的产出速度。当然,我们可以通过个人经验筛选出其中有价值的那些,但是这就像手工作坊依赖老师傅一样,这样抽象的经验是否合理,能否传承是一个大问题。

那么,科学研究的哪些流程可以做的更好一点呢?这里我们可以列举一些:

  1. 检索。我们通常的搜索方式是在各个搜索引擎的搜索框里输出文字,获得返回的网页、图片等信息。但是对于科研来说,除了文字之外,我们还希望能够检索公式、专有名词、图片等等。这些检索内容在通常的搜索引擎中很难获得有效的结果。
  2. 引文网络。对于一篇文献来说,它引用的文献和引用它的文献都是很重要的参考信息。虽然很多出版商的网站提供了获取文献引文的选项,但是文献通常是以PDF的形式传播,我们希望能直接从离线存储的PDF文件中还原出它的引文信息。此外,如果能够从一片文献出发,描绘出相关的引文网络,我们就能够找到该领域的重要文献,非常有利于我们快速的掌握一个领域的核心信息。
  3. 知识记录。一篇文献的细节往往是非常之多的,一般情况下,我们只能通过在PDF文件或者引文管理软件中标注来记录重要的信息,可是,这样的记录方式显然是不够有效的,不仅很难讲零散记录的信息集中整理,时间一长也很容易遗忘当初标记的初衷。

问题的根源

为什们会有这些问题呢?究其根本,这是因为现在的科研出版体系还停留在纸质时代,然而我们的工作方式早已迈入了互联网时代。令人悲观的是,这些问题虽然引起了一些人的关注,但是可能很难在短期内解决。因为工作效率的低下耗费的只是研究生们的青春,而这个行业并不缺源源不断涌入的勤劳的学生。而且,科研是一个垄断行业,几大国际出版商把持了绝对的话语权,如果他们没有变革的动力,行业本身并不会发生根本的变化。

但是对于学生们来说,时间是宝贵的财富。工作效率是赢得时间的根本手段,因此我们非常有必要关注一些能提高效率的工具。这里,我将列举一些最新的工具,他们也许能在你的日常工作中派上用场。需要注意的是,这里的很多工具具有实验性质,他们的功能可能还相当不完善,因此需要你自己使用之后来判断它的价值。

科研工具的搜索引擎——LabWorm

LabWorm是一个用来搜索科研工具的搜索引擎,这里有着各种五花八门的科研相关工具。

检索工具

更具深度的文献搜索引擎

AMiner是由清华大学的团队开发的文献检索引擎,相比传统的文献检索引擎,它提供了更多更具深度的内容,比如,按照h-index排序检索结果,给出作者的常见合作者,文章或者领域的历年引用趋势等等,同时它还提供一定的社交功能,可以对作者投票或者评论。可以说AMiner代表了文献搜索引擎的未来。但是它主要侧重计算机领域的文献,其它领域的文献信息不是非常完善。

用公式来搜索维基百科

Koala能够让你通过输入Latex表达式形式的公式来检索维基百科,它会自动分析相近形式的公式,给出相关维基百科条目的链接。

用公式来搜索网页

uniquation,如果你希望用公式来搜索所有网页结果,可以试试这个,同样需要以Latex形式输入公式,也会给出相近形式的公式。如果你对Latex表达式的写法不熟悉,可以搜索一些在线的Latex公式转换器。

用图片来搜索论文

Viziometrics是一个完全基于图片的搜索引擎。其实论实用性,它估计比不上谷歌图片搜索。它是直接提取论文中的图片和图片标题来生成相关搜索项,是一个非常有意思的工具,虽然打开速度很慢。

引文相关工具

自动提取PDF中的文献信息

cermine是一个开源项目,它提供一个在线工具,能够将你上传的PDF格式的文献中的关键信息提取出来,这些信息包括作者、单位、摘要、参考文献等等。

引用文献的逆向格式化

CitationFinder是一个相当神奇的实用工具。我们知道,文献管理软件可以将数据库导出成各种专有格式,这些格式可以转换成txt。可是,反过来把TXT还原成文献管理软件能够识别的格式却是一个难题。这个网站可以将大段TXT格式的参考文献列表转换成常用的文献管理软件能够识别的格式,正确率相当高。

公式自动识别

InftyReader是一个OCR软件,它的强大之处在于它能够将pdf文件中的公式转换成Word或者Latex格式,准确率是目前最高的。

引文网络分析

理论上来说,引文网络分析是科学研究中的重要内容,但是实际上却很少有人去做这样的事情。原因是多方面的,一是:引文网络本身涉及的方面非常多,比如作者之间的引用关系,期刊权重的排序等等;二是,一旦涉及到较深的层次,引文的数量将会非常庞大,导致获取、分析和展示文献信息都将变得非常缓慢;三是,如何将复杂的网络清晰的展现出来,并从中发掘有用的信息也是一个难题。所以,虽然现在已经有一些工具能够实现引文网络的分析,但是学习成本相当高,普及率很低。目前,常用的引文分析软件包括:CiteSpace、SCI2和HistCite,有兴趣的人自行尝试。需要注意的是,官方的HistCite版本有一些Bug,如果需要可以用这里的版本。

科研知识管理

用思维导图管理文献

如果将数量繁多的文献中有用的信息组织起来是一个难题,将文献以思维导图的形式组织起来是一个可供尝试的方向。Docear就是为这一目的而生的软件。它的功能比较完善,但是使用起来有些复杂。

与PDF阅读器集成的文献管理软件

与思维导图这一本身并不太普及的形式相比,直接在PDF文件上标注信息则实用的多,然而,如何将标注的信息组织起来呢?Mac和iOS上有一款国人开发的软件MarginNote就是为这一目的量身打造,它不仅可以将PDF文件中的信息用思维导图组织起来,还可以生成记忆卡片,用作背诵之用,因而广受医学、法律专业的学生欢迎。遗憾的是,这一软件并没有Windows版本。

Windows用户可以使用文献管理软件Citavi,在提供常用的文献管理,Word引文插入功能之外,它还提供了一个Adobe PDF 阅读器的插件,可以直接在PDF文件上标注,这些标注的信息可以单独组织管理,也可以导出到思维导图软件。这个软件的另外一个亮点是,在Word中不仅可以插入文献库中的文献,也可以检索插入标注的文献中的信息。

除了文献管理软件之外,还有一类更专业的文件标注工具,学名叫质性分析软件,在心理学、社会学等学科比较常用。这类软件能够标注的文件类型更为广泛,以常用的atlas.ti软件为类,它除了可以标记PDF、Word之外,还可以标记音频、视频,标注的信息以节点方式组织,可以注释、组合、链接。这类软件适合分析含有大量文本、音视频数据,需要提取抽象信息的项目。

幻想未来

科学研究有着理论上的巨大价值,但是对于身在其中的从业者,个中甘苦,唯有己知。本文介绍了很多具有实验性质的工具,它们中到底哪些能够真的普及,尚未可知。趁着人工智能的东风,不妨让我们畅想一下科学研究的未来,想象一下,人工智能在科学研究中有哪些应用前景。

  1. 自动提取PDF格式文献的核心信息,识别其中的各个区域,生成结构化文件。这涉及到版面识别,文本OCR等方面。现在已经有一些相对成熟的工作。
  2. 内容感知检索。将PDF文件中的公式、专有名字、图片加入针对性的检索选项,可以一键搜索相关内容。
  3. 学术专用的网络爬虫。针对作者、单位,通过网络爬虫搜索到课题组主页、作者职称、单位排名等信息。
  4. 试剂、仪器识别。针对文献中提到的试剂、仪器信息,自动给出相应的购买链接和参考价格。
  5. 合作式的标注和社交化评论。不同地点的作者可以共同标记同一篇文献,并且可以相互查阅。同时可以建立一个问答平台,作者和读者可以直接交流。读者可以点赞,也可以质疑。
  6. 引文网络生成和文献推荐。自动生成文献的引用和被引网络,同时根据文献的关键词和相关文献,自动推荐相关论文。
  7. 知识链接。对于文献中提到的知识,可以自动链接教科书中对应的内容。
  8. 语义分析。自动分析文献中语句含义,归纳提取关键信息,生成逻辑关系图。
  9. 语言翻译。将英文自动翻译成其他语言。
  10. 链接企业。根据文献信息,链接到关注或者从事相关技术的公司。
  11. 团队管理和流程控制。 引入企业中的团队管理体系和流程化工作方式,便于课题组绩效考核和效率控制。
    。。。。
    可以想象的地方还有很多,但是要想完全实现上面的设想,恐怕需要一个堪比BAT规模的企业。
    但是再完善的工具也只是工具,最核心的仍然是人类自身的创造力。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 197,966评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,170评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,909评论 0 327
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,959评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,851评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,583评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,956评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,590评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,878评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,892评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,719评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,501评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,957评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,124评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,440评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,003评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,211评论 2 339

推荐阅读更多精彩内容

  • 街上有一个年过花甲的老人,手上拿着一个白色的洋瓷碗,在人来人往,车如流水的地方端着洋瓷碗,见人就说:“行行好吧。”...
    孤星一城阅读 270评论 0 0
  • 伊丽莎白与达西的爱情中就像书名那样充斥着傲慢与偏见,达西的傲慢,伊丽莎的偏见。我们的生活中并不总是遇到简那样善良或...
    高玉慧阅读 426评论 1 6
  • 现在是2017年7月7日12:51,据说我是中午一点多出生的,那么,再过十几分钟,我就满19岁了。一字开头的最后一...
    肆玖兮阅读 473评论 0 0
  • 这几日,照镜子看着因便秘而新出炉的小痘痘尤其郁闷。每天念念叨叨。有一日继续烦叨,母亲在一旁接上茬:“让你每天...
    Kilimanjaroh阅读 232评论 0 0