【论文】Feature Pyramid Networks for Object Detection

论文题目:Feature Pyramid Networks for Object Detection

作者:Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie

会议/时间:CVPR2017

链接: arxiv

论文目标

在传统目标检测任务中,通常会使用图像金字塔的方式来检测到不同尺度大小的目标。但是在深度神经网络中,直接使用图像金字塔的计算复杂度比较高,因此限制了图像金字塔的使用。

在论文中提出了一种使用旁路链接的特征金字塔网络,可以充分利用到不同尺度的特征信息,从而提高目标检测等相关任务的性能,同时不会引入太高的时空复杂度。

相关工作

fpn-background.png

最早的图像金字塔网络中,将原始图像经过不同程度的缩放之后,分别提取特征信息用于预测,时空复杂度都很高。在使用卷积神经网络的模型中,使用多层卷积层方式逐渐提取高级图像特征,最终用于预测的方式具有较高的鲁棒性,相比传统方法取得了不错的效果,但是没有充分利用到不同尺度的信息,中间层提取的特征解释性比较差。相比之下在[[SSD 系列]]中使用卷积神经网络的中间层的特征进行预测,不仅利用到了不同尺度的图像特征,相比只使用最高层特征的方式也没有引入太多的计算成本。

本文方法

通过旁路连接,构建了一个自上而下的特征金字塔网络,在编码器一端使用现有的分类网络结构,逐层提取特征。在特征融合部分,将上层特征经过上采样放大后,与使用卷积修改通道数之后的下层特征相加,得到了融合后的特征。

fpn-model.png

在预测的时候,在每一层融合后的特征都使用固定大小的卷积得到特征图用于预测,从而可以检测到不同大小的目标。

fpn-predict.png

论文中指出在特征融合的时候可以设计多种融合形式,不局限于文中的1*1卷积,也可以使用残差模块等,论文中只讨论整体的特征融合结构。

结果分析

文中将提出的FPN结构加入RPN 区域建议网络和Fast R-CNN网络中进行了测试。同时也另在图像分割任务中进行了实验。 经实验可以看到所提出的特征金字塔结构均能取得性能的提升。

总结

提出了一种自上而下的特征融合结构,使用逐元素相加的方式实现上下层特征相结合,并且在每一层融合后的特征之上都生成特征图用于预测。

Lei Yang
Lei Yang
PhD candidate

My research interests include visual speech recognition and semantics segmentation.