无监督文本分类——《Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings》

1 前言

今天分享2019年ACL上的一篇paper——《Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings》,是关于利用专家知识和word embedding来进行无监督文本分类,paper链接

在工业领域,获取大量标记数据成本往往很大,需要一些无监督或者半监督的方式解决数据标记问题。近年在学术上,无监督方法关注度有所提升,但相对有监督方法,比例还是很小。这篇关于无监督文本分类的方法,对我目前工作起了一定的指引作用,希望也能对读者有些启发。接下来详细介绍。

2 Introduction

论文作者任务背景:在面向金融领域的文本数据分类时,随业务操作细度提高,需要将原始的20个文本类别label扩充到264个类别label,无法获取大量的对应标记数据。因此作者提出:利用专家知识和word embedding的方式进行无监督文本分类。

3 Model

论文的model很简单,简单的就如上图所示。其主要思路为:

1.将文档d清洗后生成代表文档的向量V(d*);

2.将文本类别L通过清洗,扩充,过滤的方式生成对应的类别词库,用词库生成代表类别L的向量V(L*);

3.最后similarity(V(d*),V(L*)),文本与哪个类别L相似度最高,就属于该类。

方法关键:如何生成高质量的类别词库,这是本论文的核心;

3.1 Model / Cleaning 

在model的第一个步骤就是对文档按照一定原则进行清洗,类别标签也是一样的方式,清洗具体有:

1.删掉类似标点符号的特殊字符;

2.去停用词;

3.删掉文档高频词top3%;

4.删掉不常见的单词,即逆文档频率top3%;

5.删掉特殊表达式,如日期,货币等;

3.2 Model / Enrichment

该步骤是针对label进行的,其主要目的就是通过四个具体方法扩充类别词库,具体为:

1.利用专家或者搜索引擎方式,为每个类别提供3-5个代表词;

2.利用WordNet,把上步找的词对应的同义词,近义词加入词库;

3.利用已有的类别词库,找到每个类别代表性的文档(阈值70%),将文档中的词加入类别词库;

4.利用Word Embedding的方式,找到一些相似词加入词库;

备注:每个步骤找的词都必须是在文档中出现过;

3.3 Model/Consolidation

consolidation是指将enrichment步骤找到的类别词库中,有些代表类别不是特别明显的词过滤掉,剩下高质量的词,过滤的标准是按下列公式来判断:

TF(w,c)是词w在类别c中出现的频率,分子右边是表示词w在所有类别出现的平均频率,分母表示词w在除c类别外分布的方差。当FAC(w,c)低于一定阈值时,就将词w从从类别删除掉,类别中阈值取为16,这个实际中依个人情况而定。

3.4 Model/similarity

模型的最后一个步骤将文档d和类别l进行cosine相似度计算,在向量化上,作者采用了LSA方法,具体为:

1.使用LSA,利用word-document,word-label矩阵,进行奇异值分解,生成各自的潜在语义空间;

2.利用各自生成的向量进行cosine similarity计算;

为何使用LSA:作者认为相似的文档在潜在的语义空间有相似的表示,即使文档之间没有共现的词,也会有相同的语义空间;此外LSA具有降噪,检测同义词的功能。该方法,作者在实验部分没有将其他方法进行与之对比。

4.Experiments

在实验部分,作者使用5个开源数据集,外加一个自己金融领域的数据集,5个开源数据统计为下图:

左表为5个数据集的统计情况,右表为在AGs数据集上形成的类别词库样例

在这5个数据集上,作者使用自己的model,外加一些变体进行了实验对比,详细如下图:

实验结果

实验结果显示:FAC-ALL keywords 方法在后三个数据集取的最佳效果;对比贝叶斯监督学习方法,仅在Yahoo-Answers数据集表现超过。在此个人有一些看法:一,觉得model不同的trick在不同数据集表现有差异性,也就说明某个trick在具体场景才有效;二,监督学习用贝叶斯做对比,充分性不太够;三,在similarity上使用LSA没有进行对比说明。

在金融领域数据集上,作者展示了数据集label的层次性和各个层次label的识别结果,如下图:


左图为数据集的标签层级,右表为在不同级别label上的识别结果

可以看出,随着label层级递增,识别效果差别特别大,在Level3上的类别,F1值才22%,这个结果跟样本不平衡有一定关系。

5 结语

总的来说,本篇paper总体模型框架很简单。作者是将工作中解决思路进行发表,虽然各个操作步骤也是常见的方法,但工业界的确崇尚简单有效至上的原则。论文中形成类别词库这个思路是有一定借鉴意义的,在遇到分类任务时,累积label对应的词库是十分有用的,刚好本篇论文有对应体现的方法。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容