人工智能时代前沿技术社区

首页 > 人工智能 > 热点

Google的语音自动完成功能可以掩盖视频通话中的故障

该技术由Google的团队开发,现已在Google的视频通话应用Duo中使用。

作者: | 2020-04-08 22:06:56

2ba52c58a00035ed29e5e03908d51214.jpeg-wh_651x-s_253406076.jpg

现在大多依靠视频通话进行面对面的互动,混乱的联系比以往任何时候都更加令人沮丧。模仿单个说话者说话方式的人工智能可以通过在生成的语音片段中填充小间隙来消除裂缝。该技术由Google的团队开发,现已在Google的视频通话应用Duo中使用。

当进行在线通话时,通话者声音会被切成许多小块,这些小块会在互联网上压缩成称为数据包的数据块。数据包到达混乱的另一端,软件必须对其重新排序。但是有时数据包根本无法到达,这会在对话中造成故障和缝隙。。根据Google的说法,Duo通话中有99%必须处理混乱或丢失的数据包这些通话中有十分之一会丢失超过8%的音频。   

为解决此问题,建立在DeepMind开发的神经网络可以从文本生成逼真的语音称为WaveNetEQ的新神经网络随后在包含100种录制的人类语音的大型数据集上进行了训练,这些人类语音使用48种不同的语言,直到它可以根据人们说话的常见模式自动完成简短的语音片段。由于Duo是端到端加密的,因此AI在设备而非云上运行。在通话过程中,WaveNetEQ能够了解讲话者语音的特征并生成与讲话者的风格和内容相匹配的音频片段。当数据包丢失时,AI生成的语音将插入其位置。

目前,AI只能生成音节,而不能生成整个单词或短语。但是谷歌在线发布的简短样本显示,结果可能非常逼真。在一种情况下,AI会精确模仿男性说话者的声音,取代麻烦一词的第二个音节。