买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于双卷积胶囊网络的端到端话者确认方法,过程如下:划分语音样本对;提取对数梅尔频谱;构建卷积胶囊网络:包括依次连接的特征提取层、特征融合层、动态路由层和L2范数层;训练双卷积胶囊网络:把训练集中语音样本对的对数梅尔频谱输入卷积胶囊网络得到两个深度特征矢量,深度特征拼接层拼接两个深度特征矢量再输入判决输出层,迭代更新网络参数;话者确认:将测试语音样本对输入,判断测试语音样本对是否为相同话者。本发明提出双卷积胶囊网络弥补了卷积网络不能有效表示特征元素空间关系的缺陷,采用端到端确认方式从输入语音样本对直接得到话者确认结果,消除了多模块训练目标不一致问题,提高了话者确认正确率。
主权项:1.一种基于双卷积胶囊网络的端到端话者确认方法,其特征在于,所述端到端话者确认方法包括下列步骤:S1、划分语音样本对:将实验数据随机划分为互不相交的训练集和测试集,将训练集和测试集中的语音样本划分为正样本对和负样本对,其中正样本对的两个语音样本属于相同话者,负样本对的两个语音样本属于不同话者;S2、提取对数梅尔频谱:从各个语音样本提取对数梅尔频谱,提取过程包括端点检测、预加重、分帧、加窗、傅里叶变换、梅尔滤波、对数运算和归一化;S3、构建卷积胶囊网络:所述卷积胶囊网络包括依次连接的特征提取层、特征融合层、动态路由层和L2范数层;其中,所述步骤S3过程如下:S3.1、构建特征提取层:特征提取层从输入到输出依次经过卷积层Conv1、Conv2、…、Conv5,各层的卷积核大小、输入维度、输出维度、滑动步长、像素填充分别如下所示:①Conv1:9×9,1,8,2,1;②Conv2:5×5,8,16,2,1;③Conv3:3×3,16,32,1,0;④Conv4:1×1,32,64,1,0;⑤Conv5:1×1,64,64,1,0;S3.2、构建特征融合层:令卷积层Conv1、Conv2、…、Conv5的输出为C1、C2、…、C5,C2、C3、C4、C5通过1×1的卷积层后输出R1、R2、R3、R4,输出维度均为16,进行特征融合输出I1、I2、I3、I4为 其中Ψ·表示上采样,Rp为Cp+1通过1×1卷积层后的输出;将I1、I2、I3、I4分别展平为m1×16、m2×16、m3×16、m4×16的矢量,m1、m2、m3、m4分别为I1、I2、I3、I4的初始胶囊数量,16为胶囊的维度;将I1、I2、I3、I4进行胶囊数量上的拼接得到初始胶囊D;S3.3、构建动态路由层:对初始胶囊D采用动态路由算法,迭代次数r=3,假设初始胶囊D中的第i个初始胶囊Hi是维度为16的第i个低层特征向量ui,其中i=m1+m2+m3+m4,左乘关系矩阵Wij得到第j个高层特征向量Uj|i,表达式如下 对Uj|i加权求和得向量sj,表达式如下 其中cij为加权求和的权重;最后将向量sj输入非线性函数得到输出向量vj: 其中,表示求范数,迭代r次后输出高层特征胶囊E;权重cij的确立:定义bij为连接高层特征向量Uj|i和向量sj的可能性,初始值为0;根据表达式cij=softmaxbij计算得到权重cij;加权求和得向量sj;压缩sj得到向量vj;根据表达式bij=bij+Uj|i·vj求得迭代更新后的bij;对上述过程迭代r次即得最终的权重cij;S3.4、构建L2范数层:对高层特征胶囊E求L2范数,定义为 其中,||Xi||2为第i个胶囊的L2范数,xij为第i个胶囊的第j个维度,每个胶囊的维度为m1,计算得到高层特征F;S4、训练双卷积胶囊网络:所述双卷积胶囊网络包括依次连接的两个卷积胶囊网络、深度特征拼接层和判决输出层,其中,两个卷积胶囊网络的参数相同且共享,以交叉熵损失作为代价函数迭代更新双卷积胶囊网络参数,直到训练收敛;S5、话者确认:从测试语音样本对提取对数梅尔频谱,并输入已训练的双卷积胶囊网络,判断测试语音样本对是否为相同话者,得到话者确认结果。
全文数据:
权利要求:
百度查询: 华南理工大学 基于双卷积胶囊网络的端到端话者确认方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。