买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院声学研究所
摘要:本发明涉及合成语音鉴伪领域,特别涉及一种基于深度自注意力神经网络分类器的合成语音检测方法及系统,包括以下步骤:步骤1获得具有固定长度的待判别语音信号;步骤2提取预处理后的所述待判别语音信号的时频特征;步骤3通过一维卷积神经网络模块,对所述待判别语音信号的时频特征进行模式识别,以降低其时间分辨率;步骤4通过深度自注意力神经网络分类器,对输入的低时间分辨率语音特征进行鉴别,以确定所述待判别语音信号是否为合成语音。本发明利用深度自注意力神经网络分类器对输入语音特征的长时间相关关系进行学习,并根据语音特征的长时间相关关系进行真实语音和合成语音的判别,提升了合成语音检测的准确性。
主权项:1.一种基于深度自注意力神经网络分类器的合成语音检测方法,利用深度自注意力神经网络分类器对输入语音特征的长时间相关关系进行学习,并根据语音特征的长时间相关关系进行真实语音和合成语音的判别,包括以下步骤:步骤1通过语音预处理模块,对输入的待判别语音信号进行预处理,以获得具有固定长度的待判别语音信号;步骤2通过语音时频特征提取模块,提取预处理后的所述待判别语音信号的时频特征;步骤3通过一维卷积神经网络模块,对所述待判别语音信号的时频特征进行模式识别,以降低其时间分辨率,并将得到的语音特征输入至深度自注意力神经网络分类器;步骤4通过深度自注意力神经网络分类器,对输入的低时间分辨率语音特征进行鉴别,以确定所述待判别语音信号是否为合成语音;所述步骤4具体包括:步骤401通过位置信息嵌入层,在低时间分辨率的语音特征上嵌入的其位置信息,并通过深度自注意力神经网络编码器层获得序列输出步骤402将所述序列输出输入到只有一个节点的线性层,并通过线性层将其沿着第一个轴做软最大化操作,以得到序列输出在时间轴上的加权权值步骤403利用所述加权权值对序列输出各个时间帧进行加权平均,以得到用于判别的特征并将其输入到含有两个单元的线性层,分别输出真实语音和合成语音的概率,以确定所述待判别语音信号是否为合成语音;所述深度自注意力神经网络分类器对输入语音特征的长时间相关关系进行学习的具体步骤如下:S1利用三个包含E个节点的线性层,将一维卷积神经网络输出时频特征ε的每帧分别独立映射到深度自注意力神经网络编码器的嵌入维度E,得到第一线性层的输出Q、第二线性层的输出K和第三线性层输出V;所述第一线性层的输出Q、第二线性层的输出K和第三线性层输出V的时间帧数与一维卷积神经网络输出时频特征ε的时间帧数相同且与其每帧特征的维度N不同;其中,为第一维度为T且第二维度为E的实数矩阵,E为深度自注意力神经网络编码器的嵌入维度,T为一维卷积神经网络输出时频特征ε的时间帧数;S2计算未归一化的注意力矩阵A: 其中,Kt为第二线性层的输出K的转置;对所述未归一化的注意力矩阵A的每一行进行软最大化操作以得到注意力矩阵其中,所述注意力矩阵含有一维卷积神经网络输出时频特征ε的长时间相关关系;S3计算未映射到目标空间的注意力输出O,以更新一维卷积神经网络输出时频特征ε各个时间帧上的特征;其中,所述未映射到目标空间的注意力输出O为: S4通过一个包含E个节点线性层将未映射到目标空间的注意力输出O在各个时间帧上的特征映射到深度自注意力神经网络编码器的嵌入维度,以得到深度自注意力神经网络编码器的输出其中,
全文数据:
权利要求:
百度查询: 中国科学院声学研究所 基于深度自注意力神经网络分类器的合成语音检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。