辞职滴滴加入语音合成创业团队,他要用声音的表现力赋能产品创新体验

猎云网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

电影《Her》中,主人公西奥多刚结束一场失败的婚姻,一次偶然的机会,他接触到了搭载了人工智能系统的虚拟化身“萨曼莎”。萨曼莎拥有迷人的、磁性的声线,时而风趣幽默、时而温柔体贴,与我们实际生活中听到的许多机器人顿字、顿句的发音相去甚远。虽然这个虚构出来的角色是由演员配音完成的,但却透露出一个真实的讯息——越接近真人说话水准和富有情感表现力的声音,越容易为大众所接受。

利用声音的“粘性”为产品打造专属形象

让机器摆脱平铺直叙的发声,带来更加舒适自然的听觉体验,这也是当前语音合成技术的发展方向。

然而,语音合成效果的真实性离不开准确、丰富、优质的语音训练数据。对此,成立于2016年的数据服务提供商标贝科技,在不到两年的时间里已经积累了包括文本、语音等多种类型的语料数据,并为多家互联网巨头的AI产品提供了大量的数据服务。

凭借团队十年以上的语音合成经验,标贝科技也于。

“我认为个性化的语音是一个非常有价值的方向”,标贝科技联合创始人CTO李秀林在接受猎云网(微信: ilieyun
)采访时表示,结合自身在语音合成技术领域十余年的经验和行业观察,他认为,“每个声音都是有特点的,不同的品牌、公司和服务商会根据不同的情景和产品特点采用不同的声音,而这个声音是有粘性的”。

为了打造优质的语音,让用户喜欢从而形成对声音的“粘性”,标贝科技前期需要设计丰富的语料、接触大量的声优,指导他们完成声音的采集,之后再对语音进行深度加工。

传统语料数据处理方式为手工精标,需要耗费大量人力,标贝科技则。

通过标贝科技积累和训练的音库,客户能够从中选择与自己产品属性、形象相匹配的声音,为产品赋能。今年4月召开的上交会上,齐悟就与标贝科技联合展出了“齐天大圣孙悟空”这一经典的神话形象。借助全息投影技术,“孙悟空”在齐悟的智能交互技术和标贝的语音合成技术的“赋能”下,栩栩如生地展现在大众面前。

“在整个产业链中,我们更像一个幕后工作者,为客户提供‘声音’的整体解决方案,让客户可以专心于自身产品的研发,快速地进行产品迭代”,李秀林表示,“随着这次转型,标贝已经形成了从底层数据、到核心技术再到服务和应用的三层业务结构,大大提升了满足合作伙伴多方位需求的能力。合作伙伴还可以借此摆脱产品中迫切需要高水平的语音技术,但又受制于技术门槛高、投入大的压力而左右为难的窘境”。

提供个性化音库数据及解决方案

2013年,李秀林离开当时担任高级研发经理的松下研发中心,加入百度。在百度任职期间,他带领团队开展了一个关于情感合成的项目,专攻百度小说频道,仅用半年左右的时间,就在语音合成加工效率、合成效果上取得了重大突破,项目获得了百度的百万美元大奖。

2016年,李秀林加入滴滴,任职滴滴研究院语音团队负责人兼首席算法工程师,帮助滴滴开拓其出行领域相关的语音业务。这期间的经历也让他发现,“给用户提供服务,并且改善用户的体验是一个让人非常有成就感的事情,非常兴奋”。之后,李秀林一直在寻找那样的机会——“不断进行技术创新,以创新给更多的人带来更好的体验”。

此时,标贝科技抛来的“橄榄枝”让他看到了在创业公司做语音合成技术的优势和机遇,“比如在大公司,做一个语音合成我们需要相关的数据,这时候我们通常会去找数据公司合作,需要3~6个月的时候去等待数据,这中间耗费的周期往往会很长”,李秀林表示,“在标贝,我们有很多的自有数据可以用来做各种实验,新的想法还可以直接让数据团队采集加工来配合,推进的效率非常高”。

目前,在定制型音库方面,标贝科技已成功为用户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男生音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等,音库还在不断丰富和积累中。同时标贝科技还提供自有音库,中文男女声,美语男女声,儿童,粤语,台普、日语、韩语等及个性话音库,广大客户现已能直接使用整体解决方案。

在业务发展方面,李秀林基于自己的分析,对公司的发展信心十足。他注意到,随着近年来AI人才的稀缺,极度紧张的人才问题成了很多公司不得不面临的尴尬现状。

“语音人才的招聘很难,组建一个好的团队就更难。有的公司,由于产品中需要语音技术,可能会在这个方向上投入几百甚至上千万,但由于缺乏积累,也很难做出有竞争力的技术。甚至有的公司想组建语音团队,但组建到一定程度后发现力不从心就散掉了。如果将这部分交给我们来做,相当于让客户用很低的成本实现了较高的回报,客户可以专注于产品本身,比如产品的功能、特点、个性等等,从而达到我们和客户的双赢”。

让声音自然,富有情感和表现力,一直是语音合成技术的一大难点。这当中主要涉及自然语言处理和声学建模技术。例如,我们在朗读一段文章时,能够自然分辨出哪个是词、哪个是短语,哪里需要停顿、哪里应该加强语气,并且声音是连贯、悦耳的。

“但机器看到的是一个个字符,它要把这些字符理解成我们所理解的停顿,甚至‘情感’,然后将文本的特征变成一个个声学特征,进一步生成能让人听起来很舒服、自然的声音,这个技术难度是非常大的”,李秀林告诉猎云网(微信: ilieyun
),“另外,在一般场景下,发音人发音的稳定性,包括对于他发音中一些瑕疵的控制,都是要做的,所以从数据的角度、技术的角度(NLP、声学模型)都会有一些挑战”。

高质量的语音合成技术,有非常多的应用场景。

“比如,可以利用自己的声音,或者家人的声音,给孩子讲故事,会非常有趣;再比如,智能客服机器人,通过自动识别客户语音及语义,通过语音合成的语音为客户解答简单的问题,即便只能处理其中30~50%的通话,对人力成本也是极大的改善”,李秀林谈到,“语音行业一直是AI典型的技术领域,我们工作十几年了,大家都还是自称是‘做语音技术的’。做企业需要扎扎实实地做自己擅长的领域,不去追热点,因为热点也会变,自己做得好的话,也能激发出很多新的热点”。

辞职滴滴加入语音合成创业团队,他要用声音的表现力赋能产品创新体验

目前,除了TTS评测系统已经上线,在线合成技术也已经可以在 标贝科技官网 体验,感兴趣的朋友可以尝试一下。

 

 

随意打赏

大学生创业团队创业团队的组建百度语音合成深圳创业团队加入创业团队创业团队管理语音合成团队赋能赋能管理
提交建议
微信扫一扫,分享给好友吧。