link: https://www.sciencedirect.com/science/article/pii/S0957417417305961?via%3Dihub
概述:
- 几乎是无监督的
- 利用unlabel data和少量种子词作为初始配置
- 基于有引导的主题建模(Topic Model)和词向量
- 通过更改种子词就可以应用于不同的语言和领域
架构:
- 输入是特点领域未标注语料库,其领域方面类别及极性的种子词。
- 领域方面用方面术语词、肯定词和否定词三个词分布建模。句子用领域方面和情感极性建模。
- 完成了三个任务:对照SemEval定义,为方面类别检测(Aspect Category Detection)、方面类别情感分类(Aspect Category Polarity)、 方面术语抽取(Aspect Term Extraction)。
方法:
step 1:初始化配置,领域方面/情感极性的种子词
step 2: 分离方面词和情感词:一方面采用布朗聚类分离方面词和情感词,形成词集群;另一方面,找出包含种子词的未标注语料,用种子词所在集群编号替换,作为训练实例,基于最大熵分类训练一个分类器。这样,每一个词被归类为方面词或者情感词。(布朗聚类:P.F. Brown, P.V. Desouza, R.L.Mercer, V.J.D. Pietra, Lai J.C.Class-based n-gram models of natural language Computational linguistics, 18 (4)(1992), pp. 467-479)
step 3:用话题模型组合所有内容:
参数α控制每个文档的主题概率分布,类似于传统 LDA 。
参数β控制每个主题的词分布,
参数δ控制每个文档的极性分布
实验:
restaurant reviews (G. Ganu, N. Elhadad, A. MarianBeyond the stars: Improving rating predictions using review text content, Proceedings of the Webdb, vol. 9, Citeseer (2009), pp. 1-6)
the Laptops and DIGITAL-SLR dataset (Jo Y., Oh A.H.Aspect and sentiment unification model for online review analysis, Proceedings of the fourth ACM international conference on web search and data mining, ACM (2011), pp. 815-824)
the SemEval-2016 task 5 datasets