【论文】Spatial Pyramid Based Graph Reasoning for Semantic Segmentation

论文题目:Spatial Pyramid Based Graph Reasoning for Semantic Segmentation

作者:Xia Li,Yibo Yang, Qijie Zhao, Tiancheng Shen, Zhouchen Lin, Hong Liu

会议/时间:CVPR2020

链接: arXiv

论文目标

通过在基于GCN/UNet的结构中添加Graph Reasoning 图推理来引入长距离的上下文信息依赖。使用Non-Local Block等Attention 注意力机制的解决方案计算复杂度比较高。使用图卷积网络的解决方案通常需要首先将网格状的图像数据转换/映射到图网络数据,这个映射过程的成本比较高,而且可学习的映射可能会损失数据中在空间上的关系。

通常的图卷积网络定义在非欧式空间中,不能直接添加到现有的CNN结构中,因此论文作者设计了一个数据有关的相似度矩阵作为图卷积中的Laplacian矩阵进行图卷积的计算。

本文方法

整体结构如下,在FCN特征融合的部分添加GR模块,进行长距离依赖的学习。 $$\begin{align} Y^{(s+1)} &= GR(X^{(s+1)}) + \Pi_{up}(Y^{(s)}) \\ Y^{(0)} &= GR(X^{(0)}) \\ X^{(s)} &= \Pi_{down}(X^{(s+1)}) \end{align}$$

pyramid-gr.png

考虑到 $H^{l+1} = \sigma(\tilde L H^lW^l)$ 的图卷积网络通用格式,其中 $\tilde L = I - \tilde D^{-\frac{1}{2}} \tilde A \tilde D^{-\frac{1}{2}}$,$\tilde A = A + I$ ,有 $\tilde D_{ii} = \sum_j \tilde A_{ij}$ 。如果不使用欧式空间到图网络空间的映射,直接在特征图上进行图卷积。需要对模型做相应的修改。

上式中的 $\tilde A$ 表示正规化之后的邻接矩阵,或者称为相似度矩阵,在这个论文中使用 $\tilde A_{ij} = \phi(X)_i \tilde\Lambda(X) \phi(X)_j^T$ 计算,即使用位置无关但是数据有关的点乘注意力实现。而不是使用训练得到的固定的邻接矩阵。这里的 $\tilde \Lambda$ 的计算方式采用类似通道注意力的方式实现,即先进行GAP然后卷积,最后得到对角矩阵。

使用 $\tilde D$ 提供了正则化,不需要再进行Softmax操作。

pyramid-gr-module.png

在之前的图推理方法中,将像素数据映射到Interspace中,得到图结构的节点数量远少于原本的像素数量,本文中直接实现的在像素域上的计算方法计算量比较大,因此引入了简化方法。即在计算 $\tilde D$ 的时候并不是直接计算 $\tilde A \in R^{HW \times HW}$ ,而是引入一个全1的向量,得到 $\tilde D = diag(\tilde A \cdot \vec 1) = diag(\phi(\tilde\Lambda(\phi^T \cdot \vec 1)))$ ,将所有的矩阵计算变为和一个向量的运算。计算左乘 $\tilde L X$ 的时候使用 $\tilde LX = X - \tilde D^{-\frac{1}{2}} \phi\tilde\Lambda\phi^T\tilde D^{-\frac{1}{2}}X = X - P(\tilde\Lambda(P^TX))$ ,其中 $P = \tilde D^{-\frac{1}{2}}\phi$ 。

结果分析

首先进行Ablation Study。对于GR模块提出的Laplacian各个部分进行对比。可以看到效果提升。

spygr-ablation.png

在Cityscapes、Pascal VOC和MS COCO数据集上做了实验。

spygr-cityscape.png

spygr-coco.png

Lei Yang
Lei Yang
PhD candidate

My research interests include visual speech recognition and semantics segmentation.