基于注意力机制的循环网络进行层级性多元标签文本分类

1 前言

今天分享一篇做层级性多元标签文本分类任务的paper,题目为:<Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approach>,论文是发表在2019年CIKM上,下载地址为:https://base.ustc.edu.cn/pdf/Wei-Huang-CIKM2019.pdf,论文也公开了源码:https://github.com/RandolphVI/Hierarchical-Multi-Label-Text-Classification。从题目也能看出,论文的核心是作者提出Attention-based Recurrent Network方法来解决多标签分类任务中层级性问题。


参考上图,论文将HMTC任务定义为:
定义1:Hierarchical Structure \gamma .
C=(C^1,C^2,...,C^H),其中C为categories label集合,H为label的层级数量,C^i为第i层label的集合。
定义2:HMTC Problem
给定文档集合D,及相关的层级标签结构\gamma,HMTC问题可以转成学习一个分类模型\Omega进行标签预测,即为:
\Omega(D,\gamma,\Theta) \to L
其中\Theta 为要学习的参数,D_i=\{w_1,w_2,...,w_N\} 为第i个文本,有N个序列词组成;对应L_i=\{l_1,l_2,...,l_H\}l_i为第i层标签集合。
其实,文中解决HTMC任务场景是有一定限制的:对应输入的文本x来说,它在H层标签体系中,每层都是有标签的,而且每层标签的数量是1个或多个。

2 模型


上图为论文的整体模型架构图,分为三层:(1)Documentation Representing Layer (DRL)——进行文本和层级标签的表征学习;(2)Hierarchical Attention-based Recurrent Layer (HARL)——使用注意力机制,让学习的文本向量和标签向量进行循环学习,交互;(3)Hybrid Predicting Layer (HPL)——混合方式进行标签预测。下面重点介绍这三部分内容。

2.1 Documentation Representing Layer

在文本表征上,先使用worde2vec获取词向量,然后使用Bi-LSTM网络进行表征学习,学习得到序列向量V


在后续操作上,作者使用了基于词的平均池化操作(word-wise average pooling operation),将V变成\tilde{V}

在层级标签表征上,是使用lookup方式生成初始化矩阵标S

最后,将表征学习到的VS进行拼接,进入下一个layer进行学习。

2.2 Hierarchical Attention-based Recurrent Layer

这一层是论文核心的体现,其主要思想就是:将第一个layer学习的向量接入一个rnn网络,该网络的内部是HAM结构,而HAM在文中称为Hierarchical Attention-based Memory,意思就是基于attention的层级记忆单元。另外,这个循环网络的节点数应该就是标签的层级数,如数据集的标签有5个层级,那么这一层的rnn节点就为5,可以理解为一层接着一层进行递进式学习,像标签的层级结构一样。


上图为HAM示意图,有点类似LSTM结构,其有三部分组成: Text-Category Attention (TCA),Class Prediction Module (CPM),Class Dependency Module(CDM),其计算公式为:

其中r_{aat}^{h},W_{att}^h 分别代表h-level层的文本与标签交互信息,与h-level层文本与标签交互的attention权重。

P_L^h,A_L^h分别代表h-level层标签预测的概率,与h-leve层模型整体表征的信息。

\omega^h为h层学习到的信息,作为记忆信息,进行传递学习用。

Text-Category Attention


上图为Text-Category Attention计算图,其主要目标是让输入的文本与各层级的标签进行交互学习,使用的方法类似注意力机制,计算公式对应如下:



看着上图觉得挺复杂的,其实计算起来很简单,V_h是利用上一层的信息进行更新,可以理解接受上一层与label相关用的信息;O_h,W_{att}^h是计算输入的文本与第h层标签的attention,后者为权重值;M_h,r_{att}^h为计算带标签的文本信息,并平均方式得到最终的文本表征信息。

Class Prediction Module
该模块目的为:将原始文本语义表示与引入前一层信息的关联文本类别表征相结合,生成整体的表征并预测每一层的类别,下为更新公式:


Class Dependency Module
该模块目的为:通过保留各层级的层次信息,对不同层次之间的依赖关系进行交互传递学习,其主要意思想学习到文本中每个序列的词对各级label的关联程度,并将信息进行循环学习。



2.3 Hybrid Predicting Layer

利用第二层的信息进行混合预测,为何是混合预测?原因为:在作者看来,前面学习的每层P_L^h预测只是局部的预测,需要将每次的信息融合起来进行一个全局的预测P_G


接着将局部预测值和全局预测值加权作为最终预测的值P_F

此处阈值\alpha取0.5,认为局部与全局同样重要。

2.4 Loss Function

在预测的时候使用了局部预测和全局预测,作者就对应做了两个loss function,第一个是每个层级的label预测的损失,第二个是全局label预测的损失,最后二者加起来并加一个L2正则作为最终的loss。



3 Experiment

论文使用了两个数据集进行了实验,对比的方法是设置了不同的变体进行对比,并未跟先前类似的paper试验进行比较,各个变体的详情可以阅读论文。




上面两种表图都是体现文中提出的HARNN模型得到最佳结果,表现论文提出方法的有效性,具体试验结果建议有兴趣读者去githup看看源码。

4 简单总结

(1) 在做层级性多元标签文本分类时,文中提出的基于层级数量进行循环学习的方式是值得借鉴的,因为层级性label在父类与子类上是有共性和差异性。
(2) 文中提出的局部预测和全局预测融合的思路也是挺好的,吻合提出的框架结构特性。
(3) 在HAM结构上,有一定的参考意义,但个人觉得有点过于复杂,可以类似GRU结构,设计一个更为简单的处理流程。
(4) 如果处理有些样本并不是每个层级都有对应的label的数据场景时,该模型框架可能需要重新的调整。

更多文章可关注笔者公众号:自然语言处理算法与实践

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容