关注残障用户，谷歌Euphonia项目如何帮助语言障碍人士更好地交流

猎云网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

作为在无障碍领域的新进展，谷歌于今年五月在I/O大会上宣布推出Euphonia项目：试图让语音识别系统理解具有非标准语音或障碍的人。谷歌在近期发布的文章和论文中，解释了人工智能的一些功能。

需要解决的问题是显而易见的：那些有运动障碍的患者，如肌萎缩侧索硬化症（ALS）等退化性疾病，他们的说话声音根本无法被现有的自然语言处理系统所理解。

ASR（自动语音识别）系统通常是从“典型”语音中训练出来的，这意味着代表性不足的群体，比如那些有语音障碍或口音重的群体，无法体验到同样程度的实用功能。

目前最先进的ASR模型在服务中等语音障碍的ALS患者时，也会产生高误码率（WER）。

值得注意的是，这种情况至少在一定程度上要归咎于训练集，通常可以通过更具包容性的源数据来解决。这是我们在人工智能模型中发现的内隐偏见之一，这些偏见可能会在其他地方导致高错误率，比如面部识别。

对谷歌的研究人员来说，这意味着要从ALS患者那里收集数十小时的语音。正如你可能预期的那样，每个人受自身状况的影响都不一样，这就对研究造成了不小的障碍。

为此，研究人员将一个标准的语音识别模型用作基准，然后以一些实验性的方式进行调整，在新的音频上进行训练。仅这一点就大大降低了单词错误率，而且对原始模型的更改相对较小，这意味着在调整到一个新的语音时不需要太多的计算。

研究人员发现，当这个模型仍然被一个给定的音素（即像“e”或“f”这样的单个语音）所混淆时，它会出现两种错误。首先，事实是，它不能识别意图的音素，因此不能识别单词。其次，模型必须猜测说话者想要表达的音素，在两个或两个以上单词发音大致相似的情况下，可能会选择错误的音素。

第二个错误是可以智能处理的错误。也许你说，“我要回到房子里去”，而系统却不能识别出句子里的“b（back）”和“h（house）”；也有可能house在患者口中更像是mouse（鼠标），人工智能系统也许能够利用它对人类语言的了解——以及你自己的声音或你说话的语境——来聪明地填补空白。

但这要留给未来的研究。目前，你可以阅读该团队目前为止的研究成果，论文名为《Personalizing ASR for Dysarthric and Accented Speech with Limited Data》，将于下月在奥地利举行的Interspeech大会上发表。

AD：还在为资金紧张烦恼吗？猎云银企贷，全面覆盖京津冀地区主流银行及信托、担保公司，帮您细致梳理企业融资问题，统筹规划融资思路，合理撬动更大杠杆。填写只需两分钟，剩下交给我们！详情咨询微信：zhangbiner870616