ACL2020论文分享:基于上下文的弱监督文本分类

1 前言

今天分享一篇关于文本分类的paper,论文来自2020ACL会议,其主要思想是:基于上下文的弱监督方法进行文本分类。论文标题为:Contextualized Weak Supervision for Text Classification,论文下载链接论文也开源了代码。今天分享的这篇paper在内容上,与我之前分享的一篇2019ACL的paper——无监督文本分类(Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings)对比,有些类似之处:两篇都用使用先构建初始label种子词库,然后扩充类别词库的进行迭代分类的思路,不同的是在扩充词库与识别文本上。本文解决的问题在扩充类别词库中,有很多词是有很多词义的,不能笼统的单一表示,会影响文档的分类。为解决这个问题,作者提出基于上下文来解决一词多义的问题。下面详细介绍本篇论文。

2 Model

模型整体结构

上图为论文中文本分类的整体思路,可分为四个步骤,最后两个步骤是一个迭代过程。step1就是利用专家知识形成一个种子词库。

其实论文的核心在于“上下文-Contextualization”,这里涉及两个方面:上下文的词和上下文的文档。词的上下文其实就是一词多义的意思。因为相同的词,若有不同的意思,则表现在它的上下文上,如“window”,“apple”等。接下来详细说下如何生成上下文的词和上下文的文档,对应model的step2。

2.1 Document Contextualization——step2

(1)上下文表示(Contextualized Representation)
给定一个词w,统计它在文档语料库中出现n次,对应表示为w_1,...w_n。使用BERT预训练模型获取每个w_i上下文表征向量b_{w_i}。基于这样的假设:对于w_iw_j,如果二者词义相同,则它的上下文则类似,表现为cosine(b_{w_i},b_{w_j})值很高。有了这些信息,接着作者要计算词w到底有几层含义,这里采用kmeans聚类的方法,对w所有的上下文向量进行聚类,看能聚成几类。

词的上下文聚类示意图

论文对此进行了可视化说明:展示了词"window","penalty"上下文词向量聚类效果,这里
K
选择的是2,分两类,表示有两个词义,用$0,$1来区分。看到这里,可能会疑问,在聚类过程中
K
如何取值,像图中两个词都可以分成3类。对于该问题,作者也提供了一个自动选择
K
的方法。
(2)上下文词的聚类中K的学习
K的选择

公式表达的意思是,K类的所有中心c_i之间的cosine值都要满足<t阈值,取满足条件最大的K。阈值t由下面两个公式计算而来:



意思是计算每个种子词
s
的上下文词的相似度,然后取中位数形成
t(s)
,然后把所有的种子词的值取中位数得到
t

(3)文档的上下文化
经过上面的步骤,就可以得到每个词有多少个词义,也表示为多少个上下文。具体用下面形式进行表示,最后将文档中每个
w_i
进行替换,形成 contextualized document。如前面提到的,像“windows“有两层词义,就将它变成"windows$0"和"windows$1"。
词的上下文表示

2.2 Text Classifier——step3

在step2形成了上下文的种子词库和文档后,在step3进行文本分类。
(1) 生成伪标签(Pseudo-Label)
有了类别词库,就可以为文本打上伪标签,方法是:文本若某类别词库中种子词tf值之和最高,那文本就属于该label。
(2)文本分类方法
对文本打标签后,就可以利用这些文本训练一个分类器,训练方法作者选用的是Hierarchical Attention Networks (HAN)。

文本分类模型

2.3 词库的扩充与迭代——step4

完成前三步骤,相当分类任务流程跑完。但是通过前几步形成的词库,还会存在两个问题:一是种子词库太少,需要扩充;二是种子词库中有些词属于那些label可能有歧义,需要消歧,主要是第一个问题。
具体方法就是作者为词定义了一个归属类别的排序系数,按照这个系数进行扩充,公式如下:

词的类别归属系数



公式中包含三个子指标,
LI(C_j,w)
w
属于
C_j
的概率,
F(C_j,w)
w
HAN
模型预测为
C_j
的概率值tanh转化。
按照上述的方式,就可以对种子词库进行扩充,接着就可以在step3和step4进行迭代。

3 Experiment

dateset

论文主要在两个数据集进行验证测试,显示在对齐其他无监督的方法,论文的模型取得最好的效果;对比有监督方法,在NYT数据集上差距不大,在Newsgroup上差距还是挺大的。

4 结论

我个人觉得倒不是作者的整体解决方案——弱监督的文本分类新颖,而是在词的上下文化是值得去借鉴和探索的,因为这个点可以影响很多任务。另外再想:作者这一套无监督的方法,迭代下来,计算量很大,也会消耗一些人力,感觉还不如去标一些文本,然后在标注的文本的上去弱监督,是不是效果会更好些。也可能是由于工业上更依赖词库的缘故吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353