fasttest

背景

最近做优化评论的工作,涉及到一些自然语言处理的问题,记录如下。

中文和英文很大的一个不同在于中分需要分词。对于英文来说,一个单词就是一个词,而对于中文来说,可能是一个汉字代表一个词,也可能是几个汉字代表一个词。因此在使用许多语言模型的时候,首先要进行分词。

分词的一个简单的方案是使用结巴分词。其中涉及自定义词语的权重和自定义停用词。虽然是python写的,但是支持很多语言的调用,分词之后就可以使用一些模型进行语义分析。

“结巴”中文分词:做最好的 Python 中文分词组件


一段评论的关键信息,有评论的字数,关键词,词频,主题,情感倾向等

过长或者过短的评论往往都不能提供有效信息。过长的评论有可能是一些无意义的粘贴的段落,过短的评论信息含量比较少。当然,也有一些详细的有效的长评论,只是占比确实小一些。

关键词或者是敏感词,可以过滤掉一些负面的评论,留下正面评论。但是简单的规则很难准确的判断语句的含义,经常误伤或者漏网。

利用机器学习模型可以帮助分析语句的含义。但是监督学习需要样本的标注。

对于标注,有人工标注最好,如果没有,可以采用用户评分以及简单规则过滤,在模型训练之后,可进一步对之前的分类再分类,反复迭代。如此也是加速人工标注的方法。。

监督学习还需要样本,也就是需要将分词向量化。向量化的一种方式是one-hot,可同时配合tf-idf方法,另一种方式是采用word2vec方法。在得到词特征之后,可以使用lr或者svm或者lstm等模型进行训练。fasttext是一种基于word2vec的文本分类工具。

fasttext除了可以用于分类,还可以得到词向量,以计算词语之间的相似度,仅在做关键词过滤时,也可以做词语的扩展,对于近义词做相似的处理,好过字与字的严格匹配。


基本使用

fasttext可以对一个标注的语段分类,也可以得到词向量做为下一步的处理的特征

事实上,如果做商品推荐,如果将一系列的商品看做一系列的分词,也可以使用fasttext实现基于商品的协同过滤。

fasttext可以至少有两种使用方式,一种是基于命令行的,一种是基于python的。命令行似乎更快一点。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容