HRNet

Jul 6, 2022 · 1 min read

HRNet是CVPR2019提出的一种非常强的Backbone,论文参考arXiv,代码已经开源github(用于分割的代码还没有全部开源)。

在分割任务中通常需要得到与原始图像类似的高分辨率的图像输出。常用的办法包括U-Net U型网络和FCN 全卷积网络,FPN 特征金字塔网络等。这些模型中基本都涉及到分辨率由大变小再重建。如图所示。

segmantation-backbone

HRNet中将不同分辨率的路径进行并联,在通道维度上保持了多种不同大小的分辨率。

hrnet-arch.png

在不同分辨率的特征图之间添加了信息的交互,分别使用stride3x3的卷积、上采样+1x1卷积实现。最后将三个部分的特征加到一起。

hrnet-fusion.png

当充分提取到模型的特征之后,将不同维度的特征融合起来用于最后的任务。 其中V2版本将小的特征图上采样,适用于语义分割和面部关键点检测,V2p版本使用的特征金字塔适用于目标检测任务。

hrnet-stream.png

特别地,使用分类任务预训练的时候,采用了如下的方式进行特征的融合。

hrnet-classification.png

HRNet可以应用在人体语义解析、语义分割、Object Detection 目标检测、图像分类等多种任务中,是一种比较强的Backbone。

但是吧据说这东西训练速度和计算量都不小。

SE-HRNet

后面有人在HRNet的基础上提出了SE-HRNet,实际上只是将每一阶段的卷积引入了SE-Net模块。

sehrnet-arch