亚马逊开发新方法协助 Alexa 回答复杂问题

TechCrunch • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

亚马逊的 Alexa AI 团队已经为虚拟助手开发出了一种新的训练方法，可以大大提升其处理复杂问题的能力。在一篇博客文章中，团队负责人阿布达哈尼·阿布贾巴尔（Abdalghani Abujabal）详细介绍了这种新方法。这种方法将文本搜索和订制知识图谱结合在一起，而这两种方法通常是互斥的。

阿布贾巴尔提出了如下场景：你向 Alexa 提问，“诺兰的哪些电影获得了奥斯卡奖，但错过了金球奖？” 想要做出回答实际上需要弄清楚多个问题，例如所说的 “诺兰” 是否就是导演克里斯托弗·诺兰（Christopher Nolan），找出他执导的电影（甚至需要从结果列表中去推断他作为 “导演” 的角色），以及交叉确认他获得奥斯卡奖的电影列表以及获得金球奖的电影列表，最终找出哪些属于前者同时不属于后者。

针对这种复杂问题，亚马逊的方法能带来更好的答案。首先，这种方法收集尽可能完整的数据集，随后基于该团队的特定算法，利用大批量、存在大量噪声信号的数据集（例如存在大量无用数据的数据集）自动建立专门的知识图谱。这种算法能清理无用数据，并获得大多有意义的结果。

亚马逊设计的这个系统表面上看来相当简单，或者更准确地说，这结合了两种相对简单的方法，包括基本的网络搜索，即使用问题全文在网络上抓取信息。这就像是在谷歌中搜索 “诺兰的哪些电影获得了奥斯卡奖，但没有获得金球奖”。（研究员在实际操作中使用了多个搜索引擎。）随后，系统抓取排名前 10 的页面，并将它们分解为一系列的标识名和语法单元。

基于产生的数据集，Alexa AI 的方法会在句子结构中寻找线索，对最主要语句进行标记和加权，例如 “诺兰导演了《盗梦空间》”，并对其余部分进行降权。这就建立了特殊的知识图谱，随后他们会对其中的 “基石” 进行确认。“基石” 实际上是原始搜索字符串中的单词。这些单词被拿出来，而单词之间的信息会被当作对问题的答案。

通过对剩余数据进行最终的加权和排序，算法会正确返回 “盗梦空间” 作为答案。亚马逊的团队发现，这种方法实际上击败了专注于文本搜索，或专注于建立孤立知识图谱的最先进方法。不过他们也认为，可以继续对这种方法进行调整优化。对于希望智能音箱去回答更高级问题的 Alexa 用户来说，这是个好消息。

翻译：维金

Amazon develops a new way to help Alexa answer complex questions