Facebook最新麦克风声音分离可带来更优AR/VR语音交互创新

VR/AR
2020
07/20
21:30
映维网
分享
评论

来源:映维网 作者 广州客

Facebook人工智能团队日前介绍了一种由单个麦克风同时分离多达五种声音的方法。所述方法在多个语音源分离基准(包括具有挑战性的噪声和混响的基准测试)测试中优于以往的方法。利用WSJ0-2mix和WSJ0-3mix数据集,以及通过四个和五个共时扬声器的变体,模型在尺度不变信噪比(分离质量的常用度量)方面比当前最先进的模型提高了1.5 dB(分贝)以上。

相关论文:Voice separation with an unknown number of multiple speakers

为了建立所述的模型,团队使用了一种直接作用于原始音频波形的全新递归神经网络结构。以前最好的模型主要是利用遮罩和解码器来对每个说话人的声音进行分类。当扬声器数目较多或未知时,这类模型的性能会迅速下降。

与标准语音分离系统一样,Facebook人工智能团队的模型要求事先知道说话人的总数。但为了应对未知说话人数量所带来的挑战,研究人员构建了一个新的系统来自动检测说话人数量,并选择最相关的模型。

1. 工作原理

语音分离模型的主要目标是,当给定一个输入混合语音信号时,估计输入源并为每个说话人生成一个单独信道输出。

所述模型使用了一个将输入信号映射到一个潜在表示的编码器网络。团队应用一个由多个区块组成的语音分离网络,其中输入为潜在表示,输出为每个说话人的估计信号。以前的方法通常在执行分离时使用遮罩,但当遮罩未定义,并且在处理过程中可能丢失一定的信号信息时,问题就会出现。

研究人员通过置换不变训练来训练模型并利用多个损失函数直接优化信噪比。团队在每个分离区块后插入一个损失函数,从而进一步改进优化过程。最后,为了确保每个说话人一致地映射到特定的输出信道,Facebook使用预先训练的说话人识别模型来添加感知损失函数。

团队同时构建了一个处理未知数量说话人的分离的新系统。对于新系统,其主要是通过训练不同的模型来分离两个、三个、四个和五个说话人。研究人员将输入混合输入输入到设计为最多可容纳5个共时说话人的模型中,以便它能够检测到当前活动(非静止)信道的数量。然后,Facebook用一个训练模型重复同样的过程,并检查是否所有的输出信道都为活动。重复这个过程,直到所有信道都被激活,或者找到目标说话人数量最少的模型。

2. 意义

从多人对话中分离出单个语音的能力可以改善和增强我们通过各种应用实现的日常交流,例语音消息、数字助手和视频工具,以及AR/VR语音交互创新。它同时可以提高需要听力辅助的人群的体验,这样他们在拥挤嘈杂的环境中都能更清晰地听到其他人地声音,如聚会或餐厅等等。

除了分离不同的声音之外,这个新系统同时可以应用于从混合声音(如背景噪声)中分离其他类型的语音信号。另外,这项研究可以应用到音乐录音,改进以前从单一音频文件分离不同乐器的研究。Facebook表示,下一步将致力于改进模型的生成属性,直到它能够在现实世界条件中实现高性能为止。

原文链接:https://yivian.com/news/76452.html

THE END
广告、内容合作请点击这里 寻求合作
VR
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

对于增强现实领域,衍射光栅是常用的耦入器和耦出器,而主要的类型包括表面浮雕光栅(Surface-Relief Gratings)和体布拉格光栅(Volume Bragg Gratings;VBG)。
VR
随着重庆、沈阳下线了量产了国产计算机“天玥”,海南作为重点发展城市也及时跟进了,7月16日海南省国产天玥计算机生产基地正式下线了国产计算机,生产基地位于海口的海南宝通实业公司,预计年产量为10万...
VR
两年前,台积电量产了7nm工艺,今年将量产5nm工艺,这让台积电在晶圆代工领域保持着领先地位。现在3nm工艺也在按计划进行。根据台积电的规划,3nm风险试产预计将于今年进行,量产计划于2021年下半年开始。
VR
Epic Games 为大家演示了虚幻5 引擎可为大家带来更加精细的游戏画面,但这也从侧面反映了开发者需要为新游戏准备更加精细的图形素材,但是将这些素材量转换成文件体积,就十分惊人了。
VR
Mini PC对于很多对主机有一定便携性要求的用户来说是一个不错的形态,而且还可以定制化适合自己要求的显示器使用。最近华硕推出了PN50:一款由Ryzen 7 4800U移动处理器提供动力的新型Mini PC。它的外形尺...
VR

相关推荐

1
3