论文阅读“Contrastive and View-Interaction Structure Learning for Multi-view Clustering”

Wang J, Feng S. Contrastive and View-Interaction Structure Learning for Multi-view Clustering[J]. IJCAI2024

论文链接：https://www.ijcai.org/proceedings/2024/0559.pdf

摘要简述

现有的多视图方法大多聚焦于捕获多个视图之间的共识语义信息，其中对比学习广泛应用于各视图表示的对齐。然而，视图特有表示提取自对应样本的内容信息，而忽略了视图样本之间的关系。此外，目前的对比损失构造中引入了大量错误的负例样本，这一点与多视图聚类任务的目标是相矛盾的。对应对以上问题，作者提出了服务于多视图聚类任务的对比和视图交互的结构学习框架SERIES。提出的方法考虑了样本之间的结构关系，促使对比损失可以提升类簇内的紧凑性。同时，引入了一个跨视图的双重关系生成机制用于获取多视图之间共识结构图，然后用于谱聚类。细化到模型的设计上，首先通过多个图自编码器利用样本的内容信息和结构信息获取各视图特定表示。进一步，为了将同一类簇的样本聚合在一起，设计了软负例对感知的对比损失使得不相似的样本远离，相似的样本靠近。在此之后，视图特定表示输入到跨视图双重关系生成的网络层中产生亲和矩阵，以学习多视图之间一致的结构图。

模型浅析

整体来说，提出的模型包含三个子模块，首先是一系列的图自编码器，利用样本的内容信息和结构信息获取视图特有表示；接着是软负例感知的对比学习模块，用于实现对假负样本的顾虑；得到的视图表示输入到跨视图双重关系生成模块中，利用多个视图的信息来产生视图特有的亲和矩阵，辅助探索一致的拓扑结构图。

视图特定的深度图自编码器
这里需要说明的是，在每个视图中使用k-NN来构造初始的视图亲和矩阵。图自编码器的结构这里不进行赘述。该模块最终的损失函数包含对内容表示 $X$ 以及对结构表示 $A$ 的重构两部分：

软负例对感知的对比学习模块
对比学习在多视图的应用通常将来自同一样本的不同视图的表示进行对齐，以学习对应的具有区分性的特征。即：对于多视图数据的 $mn$ 个样本 $\{X_1^1,\cdots,X_i^1, \cdots, X_i^m, \cdots, X_n^m\}$ ，一般对比学习将 $(X_i^v;X_i^u)$ 作为正例样本对，而其余 $mn-m$ 个样本都为负例样本。显然，这种操作可能会将来自同一个类簇的样本看做负例样本，这一点和聚类的目标并不相符。现有的做法是引入伪标签，将错误的负例剔除出去，但是在训练的过程中很难获取到高置信度的标签，这会影响到最终的性能。
与之相反，作者提出了软负例对感知的对比损失，目的是将关联的样本推进而不相关的样本远离。具体来说，作者设计了一个权重调节函数 $\rho(\cdot, \cdot)$ 动态地调节样本对之间权重，给定的形式如下：

潜在的视图表示 $z_i^v$ 通过视图共享的映射头过滤视图其中的噪声。 $s(h_i^v,h_j^p)=(h_i^v)^Th_j^p$ 。 $\beta \in [1, 5]$ 是一个惩罚因子用于调节关联样本和非关联样本的度。例如， $\beta=2$ ，关联样本的相似度为 $s=0.8$ ，此时对应的权重为 $0.04$ 。依据上述定义的函数，视图 $v$ 和视图 $u$ 之间的软负例对感知对比损失如下：

全视图的对比损失为：
跨视图双关系生成模块
为了进一步的融合多视图间的互补信息，作者通过设计夸视图双关系生成模块来产生各视图的亲和矩阵，更好地挖掘一致的拓扑结构图。该模块包含两个生成层（双层非线性全连接层{256, $d_v$ }）：
（1）自关系生成层 $SR(\cdot)$ ：给定视图 $v$ ，其目的是利用视图 $v$ 的其他样本来表示给定样本。其生成过程可形式化为：

并且为了挖掘给定视图的全局结构，其对应的损失如下：

（2）双关系生成层 $DR^u(\cdot)$ ：该层利用不同视图之间的互补信息来生成跨视图的亲和矩阵 $G^{(u,v)}$ ，即利用视图 $u$ 的关系生成层来生成 $v$ 的潜在表示。其对应的损失为：

给定视图 $v$ ，该模块的整体损失为上述两个关系生成层的损失之和：

同时可以计算视图 $v$ 的亲和矩阵：

而在论文中，最终的共识亲和矩阵通过简单的权重平均获得：
提出模型的整体损失
在训练阶段，视图特定图自编码器、软负例对感知的对比学习模块以及双关系生成模块由下述目标函数进行联合训练：

模型的最终聚类结果使用的是对共识亲和矩阵 $\overline{S}$ 进行谱聚类。模型首先需要通过多个图自编码的预训练过程进行模型权重的初始化（200epochs）；在微调阶段使用最终的联合损失进行共识亲和矩阵的学习（100epochs）；并在其上应用谱聚类算法获得聚类结果。