【论文】Effective Approaches to Attention-based Neural Machine Translation

Feb 2, 2020· · 1 min read

论文笔记:Effective Approaches to Attention-based Neural Machine Translation

开源项目地址：stanford.edu或者github

主要内容

NMT使用RNN的架构来实现序列到序列的学习。Attention机制被广泛用于训练神经网络并提升其性能。

因此可以使用attention机制通过聚焦于输入序列的某一部分来提高NMT的性能。

文中构建了两种使用attention的NMT模型：global模型和locol模型。前者注意输入序列全体，后者每次针对输入序列的一个子集。两种模型的结构都很简单，而且后者的计算成本更低。

背景

传统NMT模型包括一个编码器和一个解码器，前者将输入映射到固定长度的向量$\mathbf{S}$，后者将向量映射到输出序列。

其具体实现有CNN-RNN结构，也有RNN-RNN结构（包括LSTM-LSTM，GRU-GRU等）。

其他的实现中使用$\mathbf{S}$作为初始化解码器的工具，而使用attention机制的模型在整个翻译过程中都将$\mathbf{S}$用做参考。

实现

使用深度LSTM作为编码器和解码器。

目标函数为$J = \sum _{(x,y)\in \mathbb{D}}-logp(y|x)$其中$\mathbb{D}$为训练数据。

globel和locol两种不同的模型区别在于内容向量$c_t$的生成方式不同。当内容向量$c_t$生成后，即可计算输出。

即首先计算attentional hidden state:$\tilde{h}_t = tanh(W_c [c_t;h_t])$。

然后得到预测向量 $p(y_t|y_{< t}, x) = softmax(W_s \tilde{h}_t)$ 。

global attention

考虑到编码器的所有隐含状态，通过编码器状态$\bar{h}_s$和解码器状态$h_t$通过score()函数得到global align weights即$a_t$，这里的向量$a_t$为可变长度的。最终使用$a_t$对$\bar{h}_s$加权得到$c_t$从而得到$\hat{h}_t$.

具体score函数见文献原文。

global attention考虑到所有的输入符号，计算成本比较高，而且无法处理较长的序列。

locol attention

借鉴soft和hard attention的思想¹，使用加窗的方式，考虑一部分的隐状态。

首先确定位置$p_t$，然后根据位于$[p_t-D,p_t+D]$的编码器状态使用相同的score()函数得到$a_t$。不同的是这里的$a_t$为固定长度($2D+1$)的向量。

关于位置$p_t$的确定有不同的方法。

locol-m方法：令$p_t = t$,使用前述方法计算$a_t$。

locol-p方法：通过学习到的参数预测，即令$p_t = S·sigmoid(v_p^Ttanh(W_p h_t))$，其中 $v_p$ 和 $W_p$为学习得到的参数，S为输入序列长度。同时计算$a_t = align(h_t,\bar{h}_s) exp(- \frac{(s-p_t)^2}{2\sigma^2})$，其中$\sigma = \frac{D}{2}$。

input-feeding

将上一输出作为输入传入网络用于产生下一输出。

具体实现

使用WMT的英语-德语双向翻译任务，共4.5M句子，包括116M英语单词110M德语单词。

选择其中的50k单词作为训练的单词表。每个LSTM具有四层，每层1000单元，每个单元为1000维张量。

评价

global attention和local attention相比其他人的实现²更加简单

通过input-feeding使得之前学习得到的结果得到充分利用，这一方法也可以用于非attention的其他RNN架构的网络中。

最终训练结果在WMT上得分23.0超过了最好的系统。

论文实现的系统具有更低的test cost。可以更好的处理长句子。

Last updated on Feb 2, 2020