基于注意力机制的循环网络进行层级性多元标签文本分类

1 前言

今天分享一篇做层级性多元标签文本分类任务的paper，题目为：<Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approach>，论文是发表在2019年CIKM上，下载地址为：https://base.ustc.edu.cn/pdf/Wei-Huang-CIKM2019.pdf，论文也公开了源码：https://github.com/RandolphVI/Hierarchical-Multi-Label-Text-Classification。从题目也能看出，论文的核心是作者提出Attention-based Recurrent Network方法来解决多标签分类任务中层级性问题。

参考上图，论文将HMTC任务定义为：
定义1：Hierarchical Structure $\gamma$ .

C=(C^1,C^2,...,C^H)

，其中

C

为categories label集合，H为label的层级数量，

C^i

为第i层label的集合。
定义2：HMTC Problem
给定文档集合

D

，及相关的层级标签结构

\gamma

，HMTC问题可以转成学习一个分类模型

\Omega

进行标签预测，即为：

\Omega(D,\gamma,\Theta) \to L

其中

\Theta

为要学习的参数，

D_i=\{w_1,w_2,...,w_N\}

为第

i

个文本，有

N

个序列词组成；对应

L_i=\{l_1,l_2,...,l_H\}

，

l_i

为第

i

层标签集合。
其实，文中解决HTMC任务场景是有一定限制的：对应输入的文本x来说，它在H层标签体系中，每层都是有标签的，而且每层标签的数量是1个或多个。

2 模型

上图为论文的整体模型架构图，分为三层：(1)Documentation Representing Layer (DRL)——进行文本和层级标签的表征学习；(2)Hierarchical Attention-based Recurrent Layer (HARL)——使用注意力机制，让学习的文本向量和标签向量进行循环学习，交互；(3)Hybrid Predicting Layer (HPL)——混合方式进行标签预测。下面重点介绍这三部分内容。

2.1 Documentation Representing Layer

在文本表征上，先使用worde2vec获取词向量，然后使用Bi-LSTM网络进行表征学习，学习得到序列向量 $V$

在后续操作上，作者使用了基于词的平均池化操作(word-wise average pooling operation)，将

V

变成

\tilde{V}

在层级标签表征上，是使用lookup方式生成初始化矩阵标

S

最后，将表征学习到的

V

和

S

进行拼接，进入下一个layer进行学习。

2.2 Hierarchical Attention-based Recurrent Layer

这一层是论文核心的体现，其主要思想就是：将第一个layer学习的向量接入一个rnn网络，该网络的内部是HAM结构，而HAM在文中称为Hierarchical Attention-based Memory，意思就是基于attention的层级记忆单元。另外，这个循环网络的节点数应该就是标签的层级数，如数据集的标签有5个层级，那么这一层的rnn节点就为5，可以理解为一层接着一层进行递进式学习，像标签的层级结构一样。

上图为HAM示意图，有点类似LSTM结构，其有三部分组成: Text-Category Attention (TCA)，Class Prediction Module (CPM)，Class Dependency Module(CDM)，其计算公式为：

其中 $r_{aat}^{h},W_{att}^h$ 分别代表h-level层的文本与标签交互信息，与h-level层文本与标签交互的attention权重。

$P_L^h,A_L^h$ 分别代表h-level层标签预测的概率，与h-leve层模型整体表征的信息。

$\omega^h$ 为h层学习到的信息，作为记忆信息，进行传递学习用。

Text-Category Attention

上图为Text-Category Attention计算图，其主要目标是让输入的文本与各层级的标签进行交互学习，使用的方法类似注意力机制，计算公式对应如下：

看着上图觉得挺复杂的，其实计算起来很简单，

V_h

是利用上一层的信息进行更新，可以理解接受上一层与label相关用的信息；

O_h，W_{att}^h

是计算输入的文本与第h层标签的attention，后者为权重值；

M_h,r_{att}^h

为计算带标签的文本信息，并平均方式得到最终的文本表征信息。

Class Prediction Module
该模块目的为：将原始文本语义表示与引入前一层信息的关联文本类别表征相结合，生成整体的表征并预测每一层的类别，下为更新公式：

Class Dependency Module
该模块目的为：通过保留各层级的层次信息，对不同层次之间的依赖关系进行交互传递学习，其主要意思想学习到文本中每个序列的词对各级label的关联程度，并将信息进行循环学习。

2.3 Hybrid Predicting Layer

利用第二层的信息进行混合预测，为何是混合预测？原因为：在作者看来，前面学习的每层 $P_L^h$ 预测只是局部的预测，需要将每次的信息融合起来进行一个全局的预测 $P_G$ ：

接着将局部预测值和全局预测值加权作为最终预测的值

P_F

：

此处阈值

\alpha

取0.5，认为局部与全局同样重要。

2.4 Loss Function

在预测的时候使用了局部预测和全局预测，作者就对应做了两个loss function，第一个是每个层级的label预测的损失，第二个是全局label预测的损失，最后二者加起来并加一个L2正则作为最终的loss。

3 Experiment

论文使用了两个数据集进行了实验，对比的方法是设置了不同的变体进行对比，并未跟先前类似的paper试验进行比较，各个变体的详情可以阅读论文。

上面两种表图都是体现文中提出的HARNN模型得到最佳结果，表现论文提出方法的有效性，具体试验结果建议有兴趣读者去githup看看源码。

4 简单总结

(1) 在做层级性多元标签文本分类时，文中提出的基于层级数量进行循环学习的方式是值得借鉴的，因为层级性label在父类与子类上是有共性和差异性。
(2) 文中提出的局部预测和全局预测融合的思路也是挺好的，吻合提出的框架结构特性。
(3) 在HAM结构上，有一定的参考意义，但个人觉得有点过于复杂，可以类似GRU结构，设计一个更为简单的处理流程。
(4) 如果处理有些样本并不是每个层级都有对应的label的数据场景时，该模型框架可能需要重新的调整。

更多文章可关注笔者公众号：自然语言处理算法与实践

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,496评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,407评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,632评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,180评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,198评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,165评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,052评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,910评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,324评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,542评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,711评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,424评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,017评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,668评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,823评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,722评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,611评论 2赞 353