ACL 2019 论文：谷歌提出增强神经网络机器翻译鲁棒性的新方法

雷锋网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

尽管近年来利用 Transformer 模型进行神经机器翻译（NMT）取得了巨大成功，但是 NMT 模型对输入的微小干扰仍然很敏感，从而导致各种不同的错误。谷歌研究院的一篇 ACL 2019 论文提出了一种方法，使用生成的对抗性样本来提高机器翻译模型的鲁棒性，防止输入中存在的细小扰动度对其造成影响。结果表明，该方法提高了 NMT 模型在标准基准上的性能。在本文中，作者 Yong Cheng、 Lu Jiang 和 Wolfgang Macherey 对其在 ACL 2019 上发表的《具有双对抗性输入的鲁棒神经机器翻译》论文进行了介绍。

Robust Neural Machine Translation with Doubly Adversarial Inputs

论文阅读地址： https://arxiv.org/abs/1906.02443

近年来，利用 Transformer 模型进行神经机器翻译（NMT）取得了巨大的成功。基于深度神经网络的 NMT 模型通常在非常大的并行语料库（输入/输出文本对）上以完全数据驱动的方式进行端到端训练，而不需要强制使用显式的语言规则。

NMT 模型尽管取得了巨大的成功，但它对输入中存在的微小干扰仍然很敏感，这就会导致它出现各种不同的错误，如翻译不足、翻译过度或翻译错误。例如，给定一个德语句子，最先进的 NMT 模型 Transformer 会生成正确的翻译：

「Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die geladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen。」
机器翻译成英语的结果：「Machine translation to English:「The spokesman of the Committee of Inquiry has announced that if the witnesses summoned continue to refuse to testify, he will be brought to court（调查委员会发言人宣布，如果被传唤的证人继续拒绝作证，他将被带到法庭）」。

但是，当我们对输入语句进行细微的更改时，比如将 geladenen 换成同义词 vorgeladenen，翻译就会变得非常不同（在这个例子中翻译结果是错误的）：

「Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die vorgeladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen。」
机器翻译成英语的结果：「The investigative committee has announced that he will be brought to justice if the witnesses who have been invited continue to refuse to testify（调查委员会宣布，如果被邀请的证人继续拒绝作证，他将被绳之以法）」。

由于 NMT 模型缺乏鲁棒性，导致其在许多不能承受其不鲁棒性的商业系统难以得以实际应用。因此，学习鲁棒翻译模型不仅是很有价值的，也是许多场景应用所要求的。然而，虽然神经网络的鲁棒性在计算机视觉领域已经得到了广泛的研究，但是相关文献中对学习鲁棒 NMT 模型的研究却很少。

在《具有双对抗性输入的鲁棒神经机器翻译》一文中，我们提出了一种方法，即使用生成的对抗性样本来提高机器翻译模型的鲁棒性，以防止输入中存在的细小扰动度对其造成影响。我们学习了一个鲁棒 NMT 模型，以直接利用模型知识和扭曲模型预测的意图来克服对抗性样本。结果表明，该方法提高了 NMT 模型在标准基准上的性能。

用 AdvGen 训练模型

一个理想的 NMT 模型将会对存在微小差异的独立输入生成相似的翻译结果。我们方法的思想是使用对抗性输入来干扰翻译模型，以期提高模型的鲁棒性。它使用一种称为对抗生成（AdvGen）的算法来实现上述方法，该算法生成可信的对抗样本来扰乱模型，然后将它们反馈到模型中进行防御训练。虽然该方法的灵感来自于生成对抗网络（GANs）的思想，但它并不依赖于鉴别器网络，而是简单地将对抗性样本应用于训练中，有效地实现了训练集的多样化及扩展。

第一步是使用 AdvGen 干扰模型。我们首先使用 Transformer 根据源输入句、目标输入句和目标输出句计算翻译损失。然后 AdvGen 随机选择源句子中的一些单词，假设它们是均匀分布的。每个单词都有一个相似单词的关联列表，例如单词「candidates 」可用以代替「substitution」使用，A dvGen 从中选择最可能在 Transformer 输出中引发错误的单词。然后，这个生成对抗性语句被反馈给 Transformer，Transformer进而对其启动防御阶段。

ACL 2019 论文：谷歌提出增强神经网络机器翻译鲁棒性的新方法