自然语言处理的一些工具及网站

斯坦福的corenlp,可以用来entities的提取。

http://nlp.stanford.edu/software/corenlp.shtml

关于情感分析

情感分析的词库,

sentiment Word

wordnet  是近义词词典

sentiwordnet  基于wordnet的,现在已经 3.0了http://sentiwordnet.isti.cnr.it/

sentiwords  基于sentiwords的http://hlt-nlp.fbk.eu/technologies/sentiwords

中文的http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html

情感词典

1.知网的情感词典

-http://www.keenage.com/html/c_bulletin_2007.htm

由知网发布的词典,包括中文情感词典和英文情感词典

(以下需要论坛积分)

2.台湾大学的情感极性词典

-http://www.datatang.com/data/11837

包括2810个正极性词语和8276个负极性词语。准确度很高

情感分析语料

3.酒店评论语料

-http://www.datatang.com/data/11936

谭松波整理的一个较大规模的酒店评论语料。

语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。

4.豆瓣网影评情感测试语料

-http://www.datatang.com/data/13539

来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5 stars评分在网页中有标注。语料至527页。每页20条短评。共计11323条评论

5.酒店、电脑与书籍的评论语料

-http://www.datatang.com/data/11937

数据量不太大,也有一些重复的数据

6.评论网页数据集

-http://www.datatang.com/data/12044

数据量不小,包括的电影和评论都不少

文本情感分析综述∗赵妍妍+, 秦兵, 刘挺

4.2 情感分析的资源建设

4.2.1 情感分析的语料

1.(可下载) 康奈尔大学(Cornell)提供的影评数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中.

2. 伊利诺伊大学芝加哥分校(UIC)的Hu 和Liu 提供的产品领域的评论语料:主要包括从亚马逊和Cnet 下

载的五种电子产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器).其中他们将这些语料按句

子为单元详细标注了评价对象,情感句的极性及强度等信息.因此,该语料适合于评价对象抽取和句子级主客观

识别,以及情感分类方法的研究.此外,Liu 还贡献了比较句研究[74]方面的语料.

3. (可下载)Janyce Wiebe 等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库.其中标注者为每个子句手工标注出一些情感信息,如观点持有者,评价对象,主观表达式以及其极性与强度.文献[75]描述了整个的标注流程.MPQA 语料适合于新闻评论领域任务的研究.

4. 麻省理工学院(MIT)的Barzilay 等人构建的多角度餐馆评论语料:共4,488 篇,每篇语料分别按照五个角

度(饭菜,环境,服务,价钱,整体体验)分别标注上1~5 个等级.这组语料为单文档的基于产品属性的情感文摘提供

了研究平台.

5. 国内的中科院计算所的谭松波博士提供的较大规模的中文酒店评论语料:约有10,000 篇,并标注了褒贬

类别,可以为中文的篇章级的情感分类提供一定的平台.

4.2.2 情感分析的词典资源

情感分析发展到现在,有不少前人总结出来的情感资源,大多数表现为评价词词典资源.

1. GI(General Inquirer)评价词词典(英文,http://www.wjh.harvard.edu/~inquirer/).该词典收集了1,914 个褒义词和2,293 个贬义词,并为每个词语按照极性,强度,词性等打上不同的标签,便于情感分析任务中的灵活应用.

2. NTU 评价词词典(繁体中文).该词典由台湾大学收集,含有2,812 个褒义词与8,276 个贬义词[76].

3.(可下载) 主观词词典(英文,http://www.cs.pitt.edu/mpqa/).该词典的主观词语来自OpinionFinder 系统,该词典含有8,221 个主观词,并为每个词语标注了词性,词性还原以及情感极性.

4. (可下载)HowNet 评价词词典(简体中文、英文,http://www.keenage.com/html/e_index.html).该词典包含9,193 个中文评价词语/短语, 9,142 个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源.

还有一个sentimen的提取的一个库, pattern

http://blog.csdn.net/artemisrj/article/details/41556449

另外nltk也是有工具的。http://www.nltk.org/api/nltk.sentiment.html#module-nltk.sentiment

地理有关的信息??

http://www.datasciencetoolkit.org/

知乎上推荐的包,改天试试看,

http://www.zhihu.com/question/19929473

52npl上面整理的资料。

http://www.52nlp.cn/resources

这个也可以看看哇。

http://www.oschina.net/project/tag/305/nlp

porter stemmer 处理词语的失态问题 create created之类的??

隐马尔可夫模型 (Hidden Markov Model,HMM) 的介绍

http://blog.csdn.net/likelet/article/details/7056068

条件随机场的一篇介绍

http://download.csdn.net/download/zh515858237/2182521

【论文+(申请)下载:基于SentiWordNet的高准确率/覆盖率新情感词典SentiWords(155,286 words)】《SentiWords: Deriving a High Precision and High Coverage Lexicon for Sentiment Analysis》L Gatti, M Guerini, M Turchi (2015)http://t.cn/RUxgfXwproject page:http://t.cn/RUxgVjT

named entity recognizers LingPipe

LingPipe is tool kit for processing text using computational linguistics. LingPipe is used to do tasks like:

Find the names of people, organizations or locations in news

Automatically classify Twitter search results into categories

Suggest correct spellings of queries

http://alias-i.com/lingpipe/

1.NLTK

NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。

网站

http://www.nltk.org/

安装

安装 NLTK:

sudo pip install -U nltk

安装 Numpy (可选):

sudo pip install -U numpy

安装测试:

python then type import nltk

体验过它加的nlp,

2.Pattern

Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment analysis),WordNet。支持机器学习的向量空间模型,聚类,向量机。

网站:

https://github.com/clips/pattern

安装:

pip install pattern

3.TextBlob

TextBlob 是一个处理文本数据的 Python 库。提供了一些简单的api解决一些自然语言处理的任务,例如词性标注、名词短语抽取、情感分析、分类、翻译等等。

网站:

http://textblob.readthedocs.org/en/dev/

安装:

pip install -U textblob

4.Gensim

Gensim 提供了对大型语料库的主题建模、文件索引、相似度检索的功能。它可以处理大于RAM内存的数据。作者说它是“实现无干预从纯文本语义建模的最强大、最高效、最无障碍的软件。”

网站:

https://github.com/piskvorky/gensim

安装:

pip install -U gensim

5.PyNLPI

它的全称是:Python自然语言处理库(Python Natural Language Processing Library,音发作: pineapple) 这是一个各种自然语言处理任务的集合,PyNLPI可以用来处理N元搜索,计算频率表和分布,建立语言模型。他还可以处理向优先队列这种更加复杂的数据结构,或者像 Beam 搜索这种更加复杂的算法。

安装:

LInux:

sudo apt-get install pymol

Fedora:

yum install pymol

6.spaCy

这是一个商业的开源软件。结合Python和Cython,它的自然语言处理能力达到了工业强度。是速度最快,领域内最先进的自然语言处理工具。

网站:

https://github.com/proycon/pynlpl

安装:

pip install spacy

7.Polyglot

Polyglot 支持对海量文本和多语言的处理。它支持对165种语言的分词,对196中语言的辨识,40种语言的专有名词识别,16种语言的词性标注,136种语言的情感分析,137种语言的嵌入,135种语言的形态分析,以及69中语言的翻译。

网站:

https://pypi.python.org/pypi/polyglot

安装

pip install polyglot

8.MontyLingua

MontyLingua 是一个自由的、训练有素的、端到端的英文处理工具。输入原始英文文本到 MontyLingua ,就会得到这段文本的语义解释。适合用来进行信息检索和提取,问题处理,回答问题等任务。从英文文本中,它能提取出主动宾元组,形容词、名词和动词短语,人名、地名、事件,日期和时间,等语义信息。

网站:

http://web.media.mit.edu/~hugo/montylingua/

9.BLLIP Parser

BLLIP Parser(也叫做Charniak-Johnson parser)是一个集成了产生成分分析和最大熵排序的统计自然语言工具。包括 命令行 和 python接口 。

10.Quepy

Quepy是一个Python框架,提供将自然语言转换成为数据库查询语言。可以轻松地实现不同类型的自然语言和数据库查询语言的转化。所以,通过Quepy,仅仅修改几行代码,就可以实现你自己的自然语言查询数据库系统。

网站W

https://github.com/machinalis/quepy

http://quepy.machinalis.com/

还有一个sentimen的提取的一个库, pattern

http://blog.csdn.net/artemisrj/article/details/41556449

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,013评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,205评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,370评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,168评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,153评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,954评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,271评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,916评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,382评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,877评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,989评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,624评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,209评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,199评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,418评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,401评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,700评论 2 345

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,148评论 1 25
  • 我从来没有过这么孤单 在北京的某一个周末,我一个人撑着伞从国博中出来。看着身边大多数都是来北京旅游参观的游客,都没...
    JerryLi123阅读 244评论 0 0
  • 1. 让不了解这个产品的人去了解这个产品,喜欢这个产品和使用这个产品,让喜欢的人去使用,去分享这个产品,让产品的偏...
    柠檬的365天阅读 190评论 0 0
  • 在这个有点闷热的下午,我有点怀念过去,也许我并不是真的怀念过去,我只是在想我为什么这么惆怅,我的生活到底缺少了...
    翔于阅读 270评论 0 0