Ke G, Chao G, Wang X, et al. A Clustering-guided Contrastive Fusion for Multi-view Representation Learning[J]. arXiv preprint arXiv:2212.13726, 2022.
摘要导读
在过去的二十年里,多视图表示学习领域取得了越来越快的进展,多视图方法可以从不同的领域提取有用的信息,促进了其应用程序的发展。然而,该社区面临着两个挑战: i)如何从大量的未标记的数据中学习鲁棒的表示,以对抗噪声或不完整视图的情况;ii)在各种下游任务中,如何平衡视图的一致性和互补性。为此,本文利用深度融合网络,将各视图特定的表示融合到视图公共表示中,提取高级语义来获得鲁棒表示。此外,采用了一个聚类任务来指导融合网络,以防止得出平凡的解决方案。为了平衡一致性和互补性,提出的模型中设计了一个非对称的对比策略,来对齐视图公共表示和每个视图的特定表示。以上这些模块被纳入到一个统一的框架中,称为 Clustering-guided Contrastive Fusion(CLOVEN)。在不完全视图数据的情况下,提出的方法可以更好地抵抗噪声干扰。可视化分析表明,CLOVEN可以保留视图特定表示的内在结构,同时提高了视图表示的紧凑性。
模型浅析
从模型图的设计可以看出,该模型将多视图融合的过程也做成了深度融合的形式。简单来说,设计了一个相对复杂的融合模块,而在融合模块之后也是一个常规的聚类驱动的反调。因为前序的View-specific Encoders都是常规操作,这里对其所用的结构不进行赘述,各位可移步到实现细节的部分看各个视图编码器的结构。这里主要对融合模块,以及所采用的非对称对比策略进行分析。
- 融合模块的结构
多视图融合的目标是将视图特定的表示集成到一个紧凑的表示空间中,得到视图公共表示。与浅层融合(直接拼接或者带权相加)不同,该模块的设计是为了逐层提取有价值的特征信息。假设这种方法可以产生语义更丰富、更紧凑、更有表达的视图公共表示。
- 最简单的方式是使用堆叠的全连接层(vanilla MLP),将视图特定的表示映射到低维的语义表示空间中:
表示batch normalization。
- 为提高
的表示能力,作者设计了两个子模块ScaleBlock和LatentBlock分别用于将中间层升维为输入的2倍然后再映射到输入维度以及将输入降维到一半再映射到输入维度。升维的过程可以看成是稀疏编码的过程,将会增加嵌入表示的多样性,而降维表示等价于information bottleneck,会增强中间层的表示能力。两个模块所对应的操作分别可以形式化为如下:
- 非对称对比策略
是一个由三层全连接网络组成的映射函数,用于将表示
映射到对比空间。
用于将
映射到聚类空间,得到样本到每个类簇的概率值。
表示余弦相似度。
最终的策略为: - 聚类驱动
最终的任务型驱动使用的是deep divergence-based clustering 损失:也算是较为成熟的聚类驱动损失。这里留个坑,改天再来填。
-
Total Loss
整个模型中较为出彩的模块就是融合模块的设计,即保留了各视图之间的表示,也学习了视图共用表示。改观了笔者对融合模块的映像。后续可以添加将其作为一个额外的映射空间做对齐融合。