[论文泛读]2021多篇GNN论文阅读

Diffusion Improves Graph Learning - NIPS 2019

假设T是原始的转移矩阵(或者说图卷积矩阵、信息传递矩阵),那么图扩散矩阵定义为:S=\sum_{k=0}^{\infty }\theta _kT^k为了保证收敛性,加上约束\sum_{k=0}^{\infty }\theta _k=1\theta _k\in[0,1]。这个转移矩阵可以自行定义:T_{rw}=AD^{-1} T_{sym}=D^{-1/2}AD^{-1/2} \widetilde{T}_{sym}=(w_{loop}I_N+D)^{-1/2}(w_{loop}I_N+A)(w_{loop}I_N+D)^{-1/2}
如果我们令T=T_{rw}\theta _k^{PPR}=\alpha \left ( 1-\alpha \right )^k,那么就得到了personalized pageRank图扩散矩阵。如果我们令T=T_{rw}\theta _k^{HK}=e^{-t}t^k/k!,那么就得到了文献《The heat kernel as the pagerank of a graph》提出的时间t的heat kernel。如果我们令T=\widetilde{T}_{sym}w_{loop}=1\theta_1=1且对任意k\neq 1\theta_k=0,此时就得到了一个GCN。

  • 创新点:我想不通这篇paper有什么创新点。

SIGN: Scalable Inception Graph Neural Network

这篇文章提出的模型如下:
Z=\sigma\left ( \left [ X\Theta _0,A_1X\Theta _1,\cdots ,A_rX\Theta _r \right ] \right ) Y=\xi \left ( Z\Omega \right )其中\Theta _0,\cdots ,\Theta _r \in \mathbb{R}^{d\times d'}\Omega \in\mathbb{R}^{d'(r+1)\times c}是可学习参数,\sigma和\xi是激活函数。作者认为,在超大图场景下A_1 X,\cdots ,A_rX的计算可以用Spark之类的分布式框架比较方便地计算出来,作为数据预处理的一部分。通常定义A_k=B^k,其中B是常见的图卷积矩阵,k=1,2,...,r。本文举了三个B作为例子:GCN里的加self loop的对称标准化邻接矩阵,Personalized PageRank图卷积矩阵和traingle-induced邻接矩阵(这是啥?)

  • 创新点:这个模型可以概括之前很多图卷积和MLP可分离的GNN模型,例如SGC和APPNP等。作者认为,图卷积操作可以作为数据预处理的一部分,这样做能加速训练,易于部署。此外,模型能自行适应不同receptive field的信号,有点像JKNet这样吧。

Scalable and Adaptive Graph Neural Networks with Self-Label-Enhanced Training

简单来说,这篇文章提出的模型是在SIGN的基础上,对不同感受野的图卷积做attention,结合标签传播方法,提出了SAGN模型。

  • 模块1:SAGN
    假设T是propagation矩阵,X^{(0)}=X是初始图信号,进行K_f阶传播:X^{(k)}=TX^{(k-1)},k=1,2,\cdots,K_f 然后对每一阶的平滑图信号用一个MLP编码器\zeta进行编码:H^{(k)}=\zeta ^{(k)}(X^{(k)}) 然后进行attention加权:H_{att}=\sum_{k=0}^{K_f}\Theta ^{(k)}H^{(k)} 其中权重矩阵\Theta ^{(k)}是对角attention矩阵,第i个对角元素\theta_i^{(k)}用attention方法计算,a是可学习参数向量,\cdot表示内积:\theta_i^{(k)}=\underset{k}{softmax}\left ( LeakyReLU\left ( [H_i^{(0)}||H_i^{(k)}]\cdot a \right ) \right ) 最后使用一个带有残差连接的MLP编码器\xiH=\xi \left ( H_{att}+XW_r \right )
  • 模块2:SLE
    是一个多阶段标签传播的过程。s代表第s个阶段,标签矩阵Y^{(0)}左乘propagation矩阵的K_l次幂,再经过一个label model \phi(H_l)_s=\phi _s\left ( A^{K_l}Y_s^{(0)} \right ) 怎么获得初始的Y_s^{(0)}呢?这个分阶段训练原文讲得很拗口,其实就是第s阶段的初始标签不仅包括训练集,还包括s-1阶段的soft prediction里最大概率超过一个阈值的所有节点,这个集合称为可信训练集。直白地来说,就是上一阶段预测的那么多个节点里面,那些能很大概率地归类为某一类的,也把他当作训练集。设L_0是原始的训练集,\widetilde{Y}是hard prediction,\widehat{Y}是soft prediction:L_s=L_0\cup \left \{ u_i|u_i\in V,\underset{c}{max}\left ( \widehat{Y}_{s-1,i,c} \right )>\beta \right \} Y_{s,i}^{(0)}=Y_i,i\in L_0 Y_{s,i}^{(0)}=\widetilde{Y}_{s-1,i},i\in L_s\setminus L_0 Y_{s,i}^{(0)}=[0,0,\cdots,0],otherwise
  • 最终模块:SAGN+SLE
    把上面两个模块加起来,第s阶段的soft prediction是:H_s=\xi _s\left ( \sum_{k=0}^{K}\Theta _s^{(k)}\zeta _s^{(k)}\left ( A^kX \right )+X(W_r)_s \right )+\phi _s\left ( A^{K_l}Y_s^{(0)} \right ) 损失函数是这样设计的:L_s=-\frac{1}{\left | L_s \right |}\left ( \sum_{i\in L_0}\sum_{c}Y_{i,c}log\left ( \widehat{Y}_{s,i,c} \right )+\sum_{j\in L_s\setminus L_0}\sum_{c}\widetilde{Y}_{s-1,j,c}log\left ( \widehat{Y}_{s,j,c} \right ) \right )
  • 创新点:receptive field方向上的attention,以及多阶段标签传播算是他的创新点吧。这是个刷榜的论文,参数量也很大。

Graph Attention Multi-Layer Perceptron - ICLR 2022在投

这篇文章和上一篇文章很像。也是个OGB刷榜的论文。

  • 模块1:特征传播 + 感受野注意力
    假设T是propagation矩阵,X^{(0)}=X是初始图信号,进行K阶传播:X^{(l)}=TX^{(l-1)},k=1,2,\cdots,K 进行attention加权:H=\sum_{l=0}^{K}W_lX^{(l)} 其中W_l是对角矩阵,第i个对角元素w_i(l)用attention方法计算:\widetilde{X}_i^{(l)}=X_i^{(l)}||E_i,\widetilde{w}_i(l)=\delta \left ( \widetilde{X}_i^{(l)}\cdot s \right ),\widetilde{w}_i(l)=exp\left ( \widetilde{w}_i(l) \right )/\sum_{k=0}^{K}exp\left ( \widetilde{w}_i(k) \right ) 其中s是可学习的向量。这个参考向量E_i怎么计算呢?文中给出了三种方法:
    1.Smoothing Attention: E_i=X_i^{(\infty )}用完全平滑掉的图信号做参考向量
    2.Recursive Attention:E_i=\sum_{k=0}^{l-1}w_i(k)X_i^{(k)}用上一阶的融合节点特征做参考
    3.JK Attention:E_i=MLP\left ( X_i^{(1)}||X_i^{(2)}||\cdots||X_i^{(K)} \right )用一个MLP去拟合参考向量
  • 模块2:残差网络 + 标签传播
    \hat {H}^{(l)}=\delta \left ( W^{(l)}\hat {H} ^{(l-1)}+X^{(0)} \right ),l=1,2,\cdots,L \hat{Y}^{(K)}=\hat{A}^K\hat{Y}^{(0)} \tilde{H}=\hat{H}^{(l)}+MLP\left ( \hat{Y}^{(K)} \right )
  • 模块3:可信标签利用RLU
    和上面的SLE差不多,训练分为多个阶段。在第m-1个阶段,预测概率是:P^{(m-1)}=softmax\left ( \hat {H} /T \right ) 参数T \in (0,1]控制了预测概率的soft和hard程度。第m阶段标签传播初始值和SLE差不多,设V_l是训练集,V_r是非训练集里的节点中,最大预测概率大于某个阈值的所有节点集合,称为可信集合:\hat {Y}_i^{(0)}=Y_i,i \in V_l \hat {Y}_i^{(0)}=P_i^{(m-1)},i \in V_r \hat {Y}_i^{(0)}=[0,0,\cdots,0],otherwise \hat {Y}^{(K)}=\hat {A}^K\hat {Y}^{(0)}
  • 模块4:可信标签蒸馏
    我也不懂ditillation是什么,看公式就是个上一阶段和这一阶段的KL散度作为惩罚项:L_{kd}=\sum_{i \in V_r}\sum_{j}\alpha_iP_{ij}^{(m-1)}log\frac{P_{ij}^{(m-1)}}{P_{ij}^{(m)}} L=L_{CE}+\lambda L_{kd}
  • 评价:我感觉和上一篇文章没什么区别

How Attentive are Graph Attention Networks - ICLR 2022在投

近年来有不少研究和实验都发现GAT在建模邻节点attention上存在的不足。这篇文章挺有趣的,作者定义了静态注意力和动态注意力:注意力本质就是一个query对多个keys的注意力分布。对于一组固定的keys,如果不同的query对这组keys进行attention,得到的attention分数相对不变(attention分数排名不变),那么这个attention函数就是静态的。显然,静态的attention的表征能力有限。作者证明了GAT的attention函数:e_{ij}=LeakyReLU(a^T[Wh_i||Wh_j]) \alpha_{ij}=\frac{exp(e_{ij})}{\sum_{j'\in N_i}exp(e_{ij'})} 是静态的,因此表征能力有限。作者提出了GAT的一个改进:e_{ij}=a^TLeakyReLU(W[h_i||h_j]) 并且证明了这个改进的attention函数是动态的attention。作者用了一个二分图查找问题作为实验,预测下图问号处的数字:

二分图

在实验中,attention分数可视化如下图所示:
注意力分数可视化

Connecting Graph Convolution and Graph PCA ICLR 2022在投

PCA算法的优化问题是:\underset{Z,W}{min}\ \left \| X-ZW^T \right \|_{F}^{2}\ \ \ \ s.t.\ W^TW=I
Zhang & Zhao (2012)提出了Graph PCA:\underset{Z,W}{min}\ \left \| X-ZW^T \right \|_{F}^{2}+\alpha \cdot tr\left ( Z^T\tilde{L}Z \right )\ \ \ \ s.t.\ W^TW=I 这个问题的解是:Z^*=( I+\alpha \tilde{L})^{-1}XW^*,\ \ \ \ W^*=(w_1,w_2,\cdots,w_k) 其中(w_1,w_2,\cdots,w_k)X^T(I+\alpha \tilde{L})^{-1}X的最大k个特征值对应的标准化的特征向量。这个玩意儿和PPNP模型很接近。基于此,作者提出了一个有监督形式的GPCA算法:\underset{Z,W}{min}\ \left \| X-ZW^T \right \|_{F}^{2}+\alpha \cdot tr\left ( Z^T\tilde{L}_{spr}Z \right )\ \ \ \ s.t.\ W^TW=I \tilde{L}_{spr}=I-\tilde{A}_{spr},\ \ \ \ \tilde{A}_{spr}=(1-\beta)\tilde{A}_{sym}+\beta D^{-1/2}YY^TD^{-1/2} 我们来看看这个YY^T的含义:如果节点i和节点j属于同一类别,那么[YY^T]_{ij}=1,否则等于0。因此\beta D^{-1/2}YY^TD^{-1/2}这一项旨在把同一类别的隐变量距离拉近,不同类别的隐变量的距离拉远。有监督GPCA的解和原始GPCA的解是一样的,替换一下拉普拉斯矩阵即可。
基于此,作者把GPCA叠多层,提出了GPCANET。这个模型首先用上述方法初始化权重矩阵,然后再进行端到端训练。除此之外,还可以用上面的方法给其它GNN做权重初始化。

  • 评价:这个模型是不是有点笨重?
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348

推荐阅读更多精彩内容