【论文】Feature Pyramid Networks for Object Detection

May 11, 2021· · 1 min read

论文题目：Feature Pyramid Networks for Object Detection

作者：Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie

会议/时间：CVPR2017

链接: arxiv

论文目标

在传统目标检测任务中，通常会使用图像金字塔的方式来检测到不同尺度大小的目标。但是在深度神经网络中，直接使用图像金字塔的计算复杂度比较高，因此限制了图像金字塔的使用。

在论文中提出了一种使用旁路链接的特征金字塔网络，可以充分利用到不同尺度的特征信息，从而提高目标检测等相关任务的性能，同时不会引入太高的时空复杂度。

相关工作

最早的图像金字塔网络中，将原始图像经过不同程度的缩放之后，分别提取特征信息用于预测，时空复杂度都很高。在使用卷积神经网络的模型中，使用多层卷积层方式逐渐提取高级图像特征，最终用于预测的方式具有较高的鲁棒性，相比传统方法取得了不错的效果，但是没有充分利用到不同尺度的信息，中间层提取的特征解释性比较差。相比之下在[[SSD 系列]]中使用卷积神经网络的中间层的特征进行预测，不仅利用到了不同尺度的图像特征，相比只使用最高层特征的方式也没有引入太多的计算成本。

本文方法

通过旁路连接，构建了一个自上而下的特征金字塔网络，在编码器一端使用现有的分类网络结构，逐层提取特征。在特征融合部分，将上层特征经过上采样放大后，与使用卷积修改通道数之后的下层特征相加，得到了融合后的特征。

在预测的时候，在每一层融合后的特征都使用固定大小的卷积得到特征图用于预测，从而可以检测到不同大小的目标。

论文中指出在特征融合的时候可以设计多种融合形式，不局限于文中的1*1卷积，也可以使用残差模块等，论文中只讨论整体的特征融合结构。

结果分析

文中将提出的FPN结构加入RPN 区域建议网络和Fast R-CNN网络中进行了测试。同时也另在图像分割任务中进行了实验。经实验可以看到所提出的特征金字塔结构均能取得性能的提升。

总结

提出了一种自上而下的特征融合结构，使用逐元素相加的方式实现上下层特征相结合，并且在每一层融合后的特征之上都生成特征图用于预测。

Last updated on May 11, 2021