【论文】Non-local Neural Networks

Oct 11, 2020· · 1 min read

论文题目：Non-local Neural Networks

作者：Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He

会议/时间：CVPR2018

论文目标

当前的CNN或者RNN结构中的卷积等操作都是针对数据中的一个小区域（local neighborhood）处理和提取特征，并没有考虑到数据中的长期/远距离依赖关系。因此设计一个non-local操作，可以考虑到输入数据中的每一个位置上的特征和依赖关系，学习到全局信息。

本文思路/解决方案

通过考虑特征图中每一个位置的加权和来得到特定位置的响应。

一方面可以直接学习到数据中远距离的信息，另一方面使用较浅层的网络也能实现比较好的结果，而且作者设计的non-local模块不改变数据的大小，可以方便的插在现有的网络中。

简单来说，non-local的思路如下，其中$x_i$为输出位置，$x_j$为数据中的每一个点，使用$f(x_i,x_j)$计算两者之间的关系并作为权重计算输入数据特征$g(x)$的加权和。

$$ y_i = \frac{1}{C(x)}\sum\limits_{\forall j}f(x_i, x_j)g(x_j) $$

在实际使用过程中，函数$f(\cdot)$和$g(\cdot)$有多种选择。后者常选用$1\times1\times1$的卷积实现。

Function Type	Pairwise Function
Gaussian	$f(x_i,x_j) = e^{x_i^T x_j}$
Embedded Gaussian	$f(x_i, x_j) =e^{\theta(x_i)^T\phi(x_j)}$
Dot product	$f(x_i,x_j) = \theta(x_i)^T\phi(x_j)$
Concatenation	$f(x_i, x_j) = ReLU(w_f^T[\theta(x_i),\phi(x_j)])$ 其中$[\cdot, \cdot]$表示连接得向量并经$w_f$变成标量

通过将non-local block定义为残差结构，使得模块输出的形状不发生变化，可以将non-local block插入到已有的预训练模型中，而不改变其性能（$W_z$初始化为0）。通过在较高的特征层加入该block，同时引入降采样，可以减小引入的计算量。

$$ z_i = W_z y_i + x_i $$

结果

经过测试，添加了non-local block的模型具有更高的预测准确率，在non-local block中选择不同的函数计算数据之间的距离（即$f(x_i,x_j)$）对于最后的模型效果影响不大。而且在模型中添加了时空维度上的nonn-local block后效果相比单纯的时间或空间维度的效果更好。

总结

提出了一种non-local的结构学习数据中距离比较远的特征的影响。并且实现了一种non-local block可以插入到现有的网络结构中并提升其性能。

Last updated on Oct 11, 2020

【论文】Non-local Neural Networks

论文目标

相关工作

本文思路/解决方案

结果

总结