UCSB新作：「看图讲故事」中，现行的评价体系会失效

雷锋网 • 6年前扫码分享

雷锋网 (公众号：雷锋网) AI 科技评论按：近日，圣塔芭芭拉加州大学 王威廉教授 团队在 arXiv 上贴出一篇论文《 No Metrics Are Perfect: Adversarial Reward Learning or Visual Storytelling 》。这篇论文指出，在「看图讲故事」这样比较主观的任务中，现行的评价体系（例如METEOR、BLEU等）会失效。由此他们提出了对抗奖励学习框架，通过逆向强化学习来获得最佳的奖励函数。实验结果表明，在自动评价体系里，这种方法能够获得与GAN、强化学习等模型相同或稍高一点的结果；而在人工评价体系里，则要比它们的结果好很多。

目前，该论文已被自然语言处理顶级会议 ACL 2018 录取。

话说，放在两年前，「看图说话」（视觉字幕，Visual Captioning）还是一个让人比较兴奋的研究热点，而现在已经出现了许多「看图讲故事」（视觉叙事，Visual Storytelling）的研究工作。这两项任务的区别和难度显而易见。以下面这几幅图为例：

UCSB新作：「看图讲故事」中，现行的评价体系会失效

「看图说话」要求检测图片中出现的人和物，然后用自然语言把它表述出来。针对上面的图片其输出结果为：

(a) A small boy and a girl are sitting together.

(b) Two kids sitting on a porch with their backpacks on.

(c) Two young kids with backpacks sitting on the porch.

(d) Two young children that are very close to one another.

(e) A boy and a girl smiling at the camera together.

而「看图讲故事」则需要更进一步，它需要提取出图片的主要思想，然后将多张连续图片的内容连贯成一个完整的故事。这就意味着不仅仅是要描述图片包含的物体，还需要“发挥想象”说出图像中没有明确表达的信息，例如人的情绪、潜在的物体等（如下面彩色字体所示）。针对上面5张系列图片的输出结果为：

Story #1: The brother and sister were ready for the firstday of school . They were excite d to go to their first dayand meet new friends . They told their mom how happy they were. They said they were going to make a lot of newfriends . Then they got up and got ready to get in the car .

Story #2: The brother did not want to talk to his sister .The siblings made up. They started to talk and smile.Their parents showed up. They were happy to see them

显然「看图讲故事」的主观性很大，这也就造成这个任务缺少标准的模板，例如上面一组图片可以编成两个完全不同的故事。

早期（其实也就16、17年）的视觉叙事研究主要还是受启于视觉字幕的成功，仍然是通过训练来最大化观测数据对的似然值，这导致的结果就是由于数据库中的表达模式有限，生成的叙事结果也非常的简单和平淡。为了解决这个问题，同时生成更类似于人类描述的故事， Rennie等人曾提出一种增强学习的框架。但是，由于在视觉叙事的任务中，常见的增强学习方法主要基于字符串匹配的手工奖励（BLEU、METEOR、ROUGE、CIDEr等），这对于推动策略搜索来说要么是有偏差的，要么就过于稀疏。举例来说，本文作者在文章中作为对比，使用ROUGE分数作为奖励来强化其策略学习时，他们发现当ROUGE得分显著提高时，其他分数（例如BLEU, CIDEr等）却并不随之而改善，甚至可能会降到0。

UCSB新作：「看图讲故事」中，现行的评价体系会失效

（中间四行是基于手工奖励的增强学习模型，XE-ss和AREL（该论文所提出的模型）后文会讲到。）

一个对抗性的例子如下：

We had a great time to have a lot of the.They were to be a of the. They were to be inthe. The and it were to be the. The, and itwere to be the.

其平均 METEOR 得分高达 40.2，但其他得分却很低。这说明，传统的这些手工奖励不能胜任「看图讲故事」任务的奖励机制。

为了解决这个问题，作者受启于「逆增强学习」，提出了对抗奖励学习（Adversarial REward Learning，AREL)的框架。和先前方法相比不同的是，这里不再使用传统的手工奖励方式，而是加入一个奖励模型，这个奖励模型通过人类的示例来学习隐式奖励函数，从而来优化策略模型的生成结果。 AREL框架图如下所示：

UCSB新作：「看图讲故事」中，现行的评价体系会失效

那么这个模型框架好不好呢？

作者使用2016年 Ting-Hao K. Huang等人发布的 VisualStorytelling (VIST) 数据集来做检验。VIST数据集是首个 sequential vision-to-language 任务（包括视觉叙事任务）的数据集，其中包含有 10117 个 Flickr 相册（网络相册）和 210819 张独立的照片。

好与不好取决于评价的标准。针对「视觉叙事」这项任务，传统上来说就是用 BLEU (B), METEOR (M), ROUGH-L (R), and CIDEr (C) 的分数作为评价指标。作为对比，作者除了选用 Huang et al 和 Yu et al 两个结果作为对比外，还选用了目前来看最好的两个模型，一个是 XE-ss，另一个是 GAN 模型。本文的 AREL 模型采用了与 XE-ss 相同的策略模型，不同点在于 XE-ss 模型使用交叉熵作为奖励函数，而 AREL 有专门的奖励学习模型。

UCSB新作：「看图讲故事」中，现行的评价体系会失效

从实验结果可以看出，当采用传统的指标来做评价时，AREL 至少达到了 state-of-art 的标准，甚至还有些微的提升。

但是作者内心似乎已经不再相信在「视觉叙事」任务中这些传统的指标能够成为好的评价标准，他们更倾向于认为在这种创造性的工作中应该让人类来判断好坏。因此他们选择在亚马逊土耳其机器人上进行了两种不同的人类评估实验：图灵测试（Turing test）和成对人类评估（pairwise human evaluation）。

在图灵测试中，每一个评价人员（worker）会同时给一个人工注释的样本和一个机器生成的样本，让他判断哪个是人类/机器生成的。作者针对 XE-ss、BLEU-RL、CIDEr- RL、GAN 和 AREL 五个模型分别独立做了图灵测试：

UCSB新作：「看图讲故事」中，现行的评价体系会失效

可以看出，AREL模型的结果在人类评价中的表现远远优于其他模型的结果，Win+Unsure的比例已经非常接近50%了。

为了进一步地比较不同算法在故事语义特征之间的差异，作者又进行了四种成对比较测试：AREL分别与XE-ss、BLEU-RL、CIDEr-RL、GAN之间的比较。比较的流程就是：向评价人员同时呈现两个生成的故事，要求他们从三个方面（关联性、表现力和具体性）进行投票。例如下面这个样本（实验中没有Human-created story，这里作为参考出现）：

UCSB新作：「看图讲故事」中，现行的评价体系会失效

在关联性、表现力和具体性三方面，（AREL：XE-ss：平局）的投票结果分别为5：0：0，4：0：1，5：0：0。整个实验的结果如下：

UCSB新作：「看图讲故事」中，现行的评价体系会失效

这种压倒性的结果表明（至少是经验性地表明），AREL模型生成的故事在关联性、表现力和具体性方面更优异，而这在自动度量评估中并没有被明确地反映出来。

不得不强调一点：以上的这些结果也从侧面说明了，在主观性较大的任务（例如视觉叙事）中传统评价标准在一定程度上是不可靠的。所以，一方面在任务中使用传统的自动评价标准时，要慎行；另一方面，即使你得到一个非常高的分数，也不一定说明你的模型就是好的。

雷锋网总结这篇论文的意义：

1、这篇论文指出了一点：即在主观性较强的任务中，传统的自动度量无论在训练还是评估方面都不一定合适；

2、针对以上问题，作者提出了一种对抗奖励学习的框架，这种框架在人类评估测试中表现良好。

论文地址： https://arxiv.org/abs/1804.09160

论文摘要

近来虽然在视觉字幕任务中取得了令人印象深刻的结果，但从照片流中生成抽象故事的任务仍然是一个难题。与字幕不同，故事具有更多语言表达风格，并且包含许多不存在于图像中的虚构概念。因此它对行为克隆算法提出了挑战。此外，由于评估故事质量的自动指标的局限性，手工奖励的强化学习方法在获得整体性能提升方面也面临困难。因此，我们提出了一个对抗奖励学习（AREL）框架，以从人类示例中学习一个隐式奖励函数，然后利用这个学习到的奖励函数来优化策略搜索。虽然自动评估显示我们的方法在克隆专家行为中性能只比最先进的（SOTA）方法略有提升，但人类评估显示我们的方法在生成更类人的故事中性能要比SOTA系统有显著地提升。

via 雷锋网AI科技评论

。

随意打赏

评价体系