https://github.com/medcl/elasticsearch-rtf
这是国内大神扩的es的发行版本,目前是5.1.1,目前看来是不需要安装中文分词,但好像ik也不难安装。当然有个过程。然后官方的一堆插件,其实没太看懂。当然可以不用。
【中文分词】https://github.com/medcl/elasticsearch-analysis-ik
直接解压到es/plugins/ik里就行。目前版本是5.4.2(发现RTF也是他搞的,呵呵,那怎么版本不同步)
【dev tool】kibana下载直接启动即可,也是官方的。
【索引可视化查询】https://github.com/mobz/elasticsearch-head,这个也是下载,进入目录,但是基于node.js的
需要npm install/npm run start,那就是也需要node.js的运行环境,呵呵。
start后运行在localhost:9100端口。其实这是一个独立服务器,可以远程连接
在es的config/*.yml文件下添加这两行即可。教程中后面的两句本来就是默认了。(https://my.oschina.net/kittyMan/blog/387512?p=1)
http.cors.enabled: true
http.cors.allow-origin: "*"
【kibana也是可视化,怎么变成一个dev tools?】这个也是下载开箱即可。但怎么只有x86的版本。
测了一下中文分词没有问题。
GET _analyze
{
"analyzer": "ik_max_word"
, "text": "批处理调用多个批处理文件_百度知道"
}
https://github.com/elastic/elasticsearch-dsl-py
这也是个神器啊,可以从dsl中解放出来。
pip install elasticsearch-dsl,直接安装。
==================================================
不要因为路远,就忘了为何出发。
让机器理解NLP去理解这个世界,提升效率。
首先中文最大的根源问题,就是分词。jieba没有去停止词的功能,不应该呀,它的词库里有stopwords-list吧。先不管了,网上找了一份。效果还行。
http://blog.csdn.net/u010533386/article/details/51458591
分词之后,要做机器学习,肯定需要把文档变成词向量。词袋模式,不考虑位置关系,肯定是落后的。用当下比较流行的word2vec。
国内一些语料库不太靠谱,要不下载不了,要不读不了。莫名其炒的问题。用wiki吧。中英文都有。主要是有成熟的方案。