【论文】Improving Semantic Segmentation in Aerial Imagery via Graph Reasoning and Disentangled Learning

Jul 6, 2022· · 1 min read

论文题目: Improving Semantic Segmentation in Aerial Imagery via Graph Reasoning and Disentangled Learning

作者:Ruigang Niu, Xian Sun, Yu Tian, Wenhui Diao, Yingchao Feng, Kun Fu

会议/时间:TGRS2021

链接: ResearchGate

论文目标

在航空影像分割问题中,由于存在前景背景不平衡,类内数据差异较大以及密集/小目标的存在,性能受到限制。文章通过引入Graph Reasoning 图推理和Disentangled Representation Learning 解耦表示学习的思路,提升在航空影像上分割的效果。

为了提取丰富的上下文信息,之前的工作使用了FCN、ASPP等方式,也可以使用基于Attention 注意力机制的方式。为了进一步增加上下文信息,可以使用Graph Reasoning 图推理的方式。

对于密集目标、小目标等容易出现特征含糊不清的问题,引入了解耦的多分支的结构。使用多任务学习的方式来解决分割和边缘检测的问题。

相关工作

使用GR的算法中,GloRe使用1D卷积在全连接图上实现图卷积,SPyGR直接在像素空间上做图卷积,忽略了像素空间和语义空间之间的语义差异。CDGC引入了从粗检测到精细化的方式(有点类似OCRNet?)DisenGCN将GCN和Disentangled Learning两者相结合。

本文方法

整体结构图下。首先使用FPN得到层次特征,使用GR模块处理特征。将特征送入双分支解耦学习模块,分别进行前景估计和边缘对齐,最后将所有的特征融合到一起进行预测。

pgr-disen-structure.png

这里的图卷积模块,吸收了HBP 层次双线性池化的思想,将相邻的三个不同分辨率的特征图进行缩放之后计算Hadamard积然后映射到若干个点,然后进行图卷积,最后使用卷积得到的结果对原本的特征相乘在映射回到原本的像素空间中。

pgr-disen-gr.png

使用HBP 层次双线性池化进行映射的时候有如下公式进行池化。

$$G_{proj}(F^2, \mathcal{U}(F^1), \mathcal{U}(F^3)) = \frac{1}{H_2W_2}\sum\limits_{i=1}^{H_2W_2} f^2_i\circ f'^1_i\circ f'^3_i$$

最后按通道分成g组,即 $C = g\times d$ ,可以认为分成了g个节点,每一个节点的特征维度为d(可以认为是d个像素空间的点构成了一个图空间的点)。在进行图卷积的时候,令 $H = \sigma(A_g X W_g)$ ,其中 $A_g\in R^{N\times N},X\in R^{N \times C},W_g\in R^{C\times F}$ ,这里的$N$就是上面的$g$,$C$就是上面的$d$。

在邻接矩阵的设计上,使用了四种不同的策略,分别是固定为一跳邻居、单位阵初始化的可学习参数、正态分布初始化的可学习参数、均匀分布初始化的可学习参数。

pgr-disen-adj.png

最后在反向映射的过程中,采用了类似SE-Net的方式,将图卷积得到的结果作为通道注意力与原始数据相乘。

在前景估计分支,作者使用了贝叶斯理论, 实际结构是学习得到一个分割图然后concat起来。使用了 $B = \delta(M\_{fg} \cdot I\parallel (1-M\_{fg}) \cdot I \parallel I)$ 的拼接方式。

pgr-disen-entimation.png

在边界对齐模块,作者号称使用了类似Optical Flow 光流的思想,学习得到一个类似光流的边界检测图然后与原本的特征相结合。

pgr-disen-bam.png

在最后损失函数设计上,对于最后的分割使用Cross Emtropy 交叉熵,前景使用BCE_Loss和Dice Loss,添加了类似PSPNet中的辅助Loss。

结果分析

在iSAID数据集和Vaihingen、Cityscapes数据集上测试了性能。 基本模型结构使用预训练的ResNet-50/101。

简单看一下Ablation Study的效果。

pgr-disen-ablation.png

总结

使用了图推理的方式提取上下文信息。这一部分的论文还蛮多的,这里用了一种分组的方式来进行处理。比直接使用像素点的节约时间和空间,用通道注意力的方式进行反向映射的方式也成本比较低。

使用了多分支的模型,分别学习分割图和边缘检测。利用边缘检测增强分割效果的想法蛮常见的。例如【论文】Boundary-aware Graph Reasoning for Semantic Segmentation或者【论文】Real-time Scene Text Detection with Differentiable Binarization|。