苹果语音团队主管Alex Acero:Siri追求真正的人性化,而不是功能累积

亿欧网  •  扫码分享
苹果语音团队主管Alex Acero:Siri追求真正的人性化,而不是功能累积

当Alex Acero第一次看电影《Her》时,并没有表现出与常人的不同之处。但是,当他再次看这部电影时,他的注意力却根本不在电影情节上。作为苹果语音团队主管,他静静地坐在那里,闭上双眼,倾听着演员Scarlett Johansson如何通过配音,表现出电脑系统中“女主人工”Samantha的人工智能的性格。他将大部分注意力放在Samantha与男主Theodore Twombly之间的对话。Acero试图了解Samantha是如何让一个人在没有见过她的情况下坠入爱河。

当我问Acero为什么电脑系统里的女生有如此魔力时,他笑了,因为答案显而易见。“这是自然的!”他说,“因为她不是传统意义上的机器人!”这对Acero来说几乎是一个启迪。 很大程度上,Samantha的成功证实了其Siri项目的正确性,即让Siri听起来更加人性化。

今天凌晨,苹果再次发布了iOS 11的第十个新测试版,未来这一新软件也必将赋予Siri一种新的声音。尽管这一新版本并未增强Siri的新功能,但是你会发现,目前Siri在语句中会有更多的停顿,且在停顿之前拉长音节,以及说话的时候,语音也会上下起伏。Siri说得话更加流畅,且语言种类也更加丰富。

苹果花了数年时间重新设计了Siri背后的技术,把它从一个虚拟助理打造为所有苹果智能手机的潮流概念。Siri不断扩展到新的国家,并增加新的语言识别。如今, Siri由苹果软件部门主管Craig Federighi负责 ,这表明,Siri对于苹果的重要性可以和iOS相媲美。

要想通过科技让你爱上虚拟助理,还需要一段时间。但Acero及其团队已经取得了巨大的进步。他们坚信,如果能让Siri听起来不像一个机器人,反而像你所认识或信任的人的话,那么即使Siri失败了,也可谓虽败犹荣。

Siri艰难的成长之路

如果你想知道苹果为什么想对其所有产品进行全面把控的话,不妨看看Siri的发展历程。 在Siri推出6年之后,其在虚拟助理竞赛中却已经远远落后于其他大多数同类产品。亚马逊的Alexa背靠众多开发支持者;Google Assistant具备更多功能;这两种设备均应用于很多公司的设备中。

但苹果声称这不是他们的错误。当Siri首次推出时,另一家公司为其提供语音识别的后端技术,苹果将Siri的早期问题归咎于他们。苹果产品营销副总裁Greg Joswiak说:“这就像是一场比赛,然而有些人却阻止了我们的前进。”Joswiak表示,苹果曾对Siri制定了一个很大的计划,即你可以与手机上的虚拟助理进行谈话,并且可以让它以更简单的方式为你做事,但技术支持却不够好,因此造成了“无用输入、无用输出”的局面。

几年前,Acero带领团队来负责Siri的后端技术,并改进Siri的体验。目前,Siri基于深度学习和人工智能,取得了巨大的进步。Siri的原始语音识别可以与其他所有竞争对手相匹敌,能正确识别95%的用户语音。 人工智能技术应用于其两个截然不同的关键部分:语音到本文,Siri试图弄清楚你说了什么;以及文本到语音,Siri对你所说的话进行回复。

对于Siri来说,最重要的是把你的声音和其他人的声音区分开来,尤其是当这些系统变得更加个性化的时候。 Siri拥有的数据越多,就越能在人们之间进行辨别,甚至听懂很浓的口音。Siri的设计也包含安全考虑。研究人员最近发现,他们可以与Siri进行高频次对话,从而使黑客无法侵入。因此,Siri需要学会的从机器语音中分离人类语音,以及区分其他人的声音。

Siri如何学习说话

要想了解这些工作系统是如何运转的,就不得不提到苹果是如何为Siri增加新的语言功能。 当Siri进军上海市场时,其团队借助本地已有的数据库,并通过雇佣上海本地人,让他们阅读数据、报纸、网络文章等来丰富其数据库。

该团队将这些录音文字与声音进行匹配,并识别音素。他们试着捕捉到每一种可以想象到的音素,比如在单词末尾逐渐消失的音素,在开始时的发力音素,在停顿之前发音更久的音素,以及在问句中语调上升的音素。每句话都有一个略微不同的声波,苹果的算法分析找出最适合的回复语句。Siri说的每句话都包含了几十个或几百个这样的音素,因此,你听到Siri说的每一句话都不是录音者所说话的方式。

Acero举了一个例子:“你想看(watch)这个吗?”和“我喜欢你的手表(watch)。”这两句话中的watch是同一个单词,但是在两句话中的语调完全不同,第一句是升调,第二句话则是降调。因此,这两句话不能用同一个“watch”的录音,也不能用同样的音素。

几年前,计算机和服务器还没有足够的处理能力来对一个庞大的数据库进行仔细研究,以找到合适的组合音调进行应答,但这就是Acero现在正在做的事情。 苹果收集并转录这些数据,同时改进算法,训练网络。他们补充了特定位置的数据和语音定制,不断完善这个系统,直到Siri几乎完全理解了上海话的内容以及人们说话的方式。

与此同时,苹果疯狂地寻找合适的语言人才,来选取适合Siri的语音。 Acero与苹果的设计师和用户团队合作,来共同探讨他们最喜欢哪种声音。这项工作更倾向于艺术,而不是科学。而接下来的事情便是科学部分。Acero说:“尽管很多声音听起来很好听,但这并不意味着他们是文本到语音转换的优质声音。”他们要求语言人才按照规定的模式进行演讲,寻找音素的变化——本质上是,每一句简短话语前后部分都存在声波差异。由于音素的变化很大,所以很难用一种自然地方式把它们连到一起,且人类很难通过倾听来识别,只有电脑才能发现这种区别。Acero说:“这就像贴壁纸一样,必须检查接缝,以确保它们在一条直线上。”

当他们发现声音听起来对人类和电脑都合适的人时,苹果在一段时间内会保留这些数据,这就成为了Siri的声音。目前Siri能够使用36个国家里的21种语言,其中涉及到的不同口音和方言,这远超其他智能助理。尽管,Siri槽点很多,但每月3.75亿的用户数量也不容忽视。

不过,相比于全球10亿多苹果用户来说,其3.75亿Siri用户仍显得相形见绌。几乎苹果的所有产品中都包括Siri功能,从iPhone到Apple Watch,甚至是Apple TV都可以看到Siri的存在。分析师估计,仅iPhone用户很快就会突破10亿。尽管Siri作为一个受欢迎且重要的功能,但对于大多数用户来说,使用Siri并非是绝对必要的。

苹果对Siri的愿景

苹果对Siri的愿景是什么呢?不妨先看一下Dwayne Johnson与Siri的一天。Johnson使用Siri来查看日历和备忘录,打开Lyft打车软件;在西斯廷教堂的时候检查他的电子邮件;打开FaceTimes,并举起手机进行自拍。Siri称他为“大先生、光头先生、漂亮先生”,但这让Siri看起来很糟糕。

Joswiak说,从一开始,苹果就希望Siri能成为一种让人喜欢的应用。但人们总喜欢通过问一些琐碎的事情来将Siri与其他虚拟助理进行对比,这让Joswiak很抓狂,因为Siri在这方面看起来很糟糕。 Joswiak表示:“我们并不想把Siri设置为完美地处理琐碎事情的工具。”

相反,Joswiak表示苹果系统通过自动化助手帮助人们做更多的事情。他指出,Siri能够在Mac上进行复杂的文件搜索,或者是即将到来的HomePod对音乐渊博的知识。但Siri仍有很多事情做不了,比如不能帮你解决复杂的琐事或争论。但Acero表示,他们正试图让Siri学习它所不知道的事情。

除了Siri的众多槽点之外,其另一个挑战就是如何让人们习惯使用Siri。 Acero说:“人们做事情往往都具有习惯性,从打字到语音仍然需要一段时间。”因此,苹果试图引导其用户。在iOS11中,Siri变得更加具有前瞻性,也更加主动。如果拟浏览网页,Siri会建议你阅读苹果的新闻故事,或者你通过Groupon预定按摩服务后,Siri会帮你添加一个日历提醒,同时也会在设备中进行同步设置。

多年来,苹果开发Siri的进程一直比较慢。在许多人看来,苹果已经失去了领先地位,落后于谷歌和亚马逊。 但Joswiak表示,问题不在于Siri能做多少事,而是如何正确地做事。苹果既然选择做这件事,就不希望半途而废。

Acero听到荧屏上Samantha有正确的停顿、正确的语调、流畅的声音,以及些许金属感。 他表示,苹果想要给用户呈现一些更优质的服务,而不仅仅是功能的累积。


2017年8月25日,亿欧智库正式发布《2017人工智能赋能医疗产业研究报告》,该报告总结八大应用场景,从产品形态、业务模式、公司现状等角度对各场景进行深度解析,进而对我国医疗人工智能公司宏观数据和巨头企业布局进行盘点,最后提出“人工智能+医疗”未来发展机遇与挑战。了解更多报告内容,请点击: 《2017人工智能赋能医疗产业研究报告》

苹果语音团队主管Alex Acero:Siri追求真正的人性化,而不是功能累积

版权声明

凡来源为亿欧网的内容,其版权均属北京亿欧网盟科技有限公司所有。文章内容系作者个人观点,不代表亿欧对观点赞同或支持。

随意打赏

亚马逊alexa语音助手alexa智能语音助手苹果watch功能苹果nfc功能苹果手机功能苹果siri苹果手表功能苹果8功能团队语音
提交建议
微信扫一扫,分享给好友吧。