文本分类 —— NLP

1、分词:http://bigdata.hylanda.com/smartCenter2018/index

2、NLP研究进度:https://baijiahao.baidu.com/s?id=1619193829009842342&wfr=spider&for=pc

3、bert资源汇总:https://zhuanlan.zhihu.com/p/50717786

4、垃圾邮件区分训练:https://www.sohu.com/a/273256419_787107

5、中文文本分类(达观):https://www.sohu.com/a/271534609_383123

6、聚类算法:https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/79332295

7、Flair(基于pytorch):https://zhuanlan.zhihu.com/p/54422156?utm_source=wechat_session&utm_medium=social&utm_oi=815709694965477376

8、HMM模型:
https://www.cnblogs.com/skyme/p/4651331.html

9、TFIDF vs TextRank 提取关键词:https://blog.csdn.net/gzt940726/article/details/80256011

10、实例:https://blog.csdn.net/liuchonge/article/details/72614524

11、研究NLP的博主:【CSDN】https://me.csdn.net/liuchonge

【文本聚类】
pre一、分词
结巴分词:关键词分配VS关键词抽取
https://www.cnblogs.com/zhbzz2007/p/6177832.html

李哥还是聪明的啊…….png

一、词向量
12、【word2vec】:
【doc2vec+kmeans】https://blog.csdn.net/juanjuan1314/article/details/75461180
https://www.zhihu.com/question/29978268
https://cloud.tencent.com/developer/article/1061949

13、【fasttext】
https://pypi.org/project/pyfasttext/
【gensim-models-fasttext】
https://radimrehurek.com/gensim/models/fasttext.html

句向量的有监督/无监督??.png

二、聚类算法
短文本聚类:https://patents.google.com/patent/CN104281653A/zh

【sklearn聚类的方法】https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering

14、Kmeans:
K值选取:http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html
minibatchKmeans VS Kmeans:https://www.dataivy.cn/blog/%E9%80%82%E5%90%88%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9A%84%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95mini-batch-k-means/
minibatchKmeans VS Kmeans 参数说明(中文)+plt看聚类效果:
https://www.cnblogs.com/pinard/p/6169370.html
主成分分析(降维作图)+pivot_table(好复杂。。之后研究一下):
http://python.jobbole.com/83498/
主成分分析PCA的用法:https://www.cnblogs.com/roygood/articles/10404472.html
http://www.cnblogs.com/wuchuanying/p/6218486.html
千万级高维数据用Kmeans:http://ramsey16.net/%E8%81%9A%E7%B1%BB%EF%BC%88%E5%9B%9B%EF%BC%89%E9%9D%A2%E5%90%91%E9%AB%98%E7%BB%B4%E7%A9%BA%E9%97%B4/
大数据量Kmeans好费时间VS minibatchKmeans:https://blog.csdn.net/cht5600/article/details/76014573
Kmeans详解:https://blog.csdn.net/weixin_33928467/article/details/86260378

——【k值怎么确定】

ps:每个类称为簇,则簇的直径:簇内任意两点间的最大距离,簇的半径:簇内点到簇质心的最大距离

给定一个合适的簇指标,可以是簇平均半径、簇平均直径、或者平均质心距离的加权平均值(权重可以为簇内点的个数)

分别取k值在1,2,4,8,16....

基本会符合下图,当簇个数低于真实个数时,簇指标会随簇个数的增长快速下降,当簇个数高于真实个数时,簇指标会趋于平稳

找到图中所示转折点,先确定k的大致范围,再通过二分查找确定k的值

image

——【K-means距离的定义】
目前各种机器学习开源库,对于k-means的实现,都是基于欧式距离。如果想自定义距离,比如说用余弦相似度,那么k-means就必须要重新推导,也即需要重新实现k-means。
下面,从k-means的推导中,可以发现,在k-means当中,计算类的中心,跟距离的定义是紧密相关的。

k-means推导.png

——【sklearn中的kmeans用的欧氏距离】

sklearn-欧几里得距离1.png

sklearn-欧几里得距离2.png

<font color=red>计算得到上步得到聚类中每一聚类观测值的均值作为新的质心。这里体现的思想是这样的:因为我们是无监督学习,对于待分类的样本集群我们没有任何的先验知识,完全不知道该怎么分类,那么我们就暴力地、勇敢地、随机地踏出第一步,然后不断地去修正我们的分类器,不得不说,这和人生的很多的做人做事的道理是类似的</font>

https://www.cnblogs.com/LittleHann/p/6595148.html#_label3_1_1_2

——sklearn Kmeans模型的保存


应该将模型保存下来,后续给向量就可以直接预测了,蠢啊!!!.png

https://cloud.tencent.com/developer/article/1010876

15、Birch
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.Birch.html
层次聚类:http://bluewhale.cc/2016-04-19/hierarchical-clustering.html

Birch或MiniBatchKMeans?

-Birch不能很好地扩展到高维数据。根据经验,如果 n_features大于20,通常使用MiniBatchKMeans会更好。
-如果需要减少数据实例的数量,或者如果想要将大量子群集作为预处理步骤或其他方式,则Birch比MiniBatchKMeans更有用。

三、聚类后的情感分析
斯坦福-Speech and Language Processing:https://web.stanford.edu/~jurafsky/slp3/
百度、腾讯、阿里的自然语言接口对比分析:https://ptorch.com/news/178.html
BosonNLP:https://blog.csdn.net/m0_37952030/article/details/78304088
BosonNLP:免费账户,每天词性分析文章限制数:500
BAIDU:调用免费
https://console.bce.baidu.com

百度API接口调用说明.png

百度Senta-基于语义和大数据的情感分类:https://www.jiqizhixin.com/articles/2018-08-24-18

朴素贝叶斯:
https://zhuanlan.zhihu.com/p/26865159
https://blog.csdn.net/tanhongguang1/article/details/45016421#fn:footnote

四、聚类后,新数据分类

最近的质心分类器
Rocchio算法

16、Data-mining 在线资料:https://www-users.cs.umn.edu/~kumar001/dmbook/index.php

五、百度NLP接口
链接:https://cloud.baidu.com/doc/NLP/s/Wjwvylgot/

【文章分类】
1) 注意:传入数据字节限制,不只是文章的字节限制,还有标题的字节限制
一个汉字四个字节,标题不超过20个字(80字节),文章不超过16384个字(65535字节)

image.png

2) 一级分类有26个主题,分别为:1、国际 2、体育 3、娱乐 4、社会 5、财经 6、时事 7、科技 8、情感 9、汽车 10、教育 11、时尚 12、游戏 13、军事 14、旅游 15、美食 16、文化 17、健康养生 18、搞笑 19、家居 20、动漫 21、宠物 22、母婴育儿 23、星座运势 24、历史 25、音乐 26、综合
二级分类不明

【新闻摘要】
-入参:
title:可选,200个字符数(400个字节)以内
content:必选,3000个字符数(6000个字节)以内

【情绪倾向】
-入参:
text:文本内容,最大2048字节

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,194评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,058评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,780评论 0 346
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,388评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,430评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,764评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,907评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,679评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,122评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,459评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,605评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,270评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,867评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,734评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,961评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,297评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,472评论 2 348

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,166评论 1 25
  • Part1安装依赖包 http://blog.csdn.net/cl1143015961/article/deta...
    小豆角lch阅读 5,105评论 2 11
  • 《史记·五帝本纪》:“举八元,使布五教于四方,父义,母慈,兄友,弟恭,子孝,内平外成。” 父慈子孝,兄友弟恭。在帝...
    霓裳风华阅读 760评论 2 7
  • 2017年4月19日的早晨,住12楼,突然房间里飞进来一只苍蝇,而且飞进了我的衣柜。瞬间我就整个人都不好了,担心苍...
    小呀小鲤鱼阅读 205评论 1 1
  • 今天早上醒来,躺在床上不想动,于是没有起床,而是玩手机看小说,就这样过了一天,除了起来吃午饭和上厕所基本没挪窝,感...
    流水莲华阅读 107评论 0 1