首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于通道注意力深度可分卷积网络的小样本话者辨认方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册小样本语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。

主权项:1.一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述小样本话者辨认方法包括以下步骤:S1、从输入语音提取对数梅尔谱特征,其中,所述输入语音包括训练语音、注册语音和测试语音;S2、初始化通道注意力深度可分卷积网络,所述通道注意力深度可分卷积网络包括顺序连接的3个深度可分卷积模块、1个通道注意力模块和1个输出模块;所述深度可分卷积模块包括顺序连接的深度可分卷积单元、批标准化单元和第一激励单元,所述深度可分卷积单元,用于依次完成通道卷积和逐点卷积操作,其中,所述通道卷积对特征图的每个通道分别进行卷积操作,卷积核个数等于通道数,将每个通道的结果依次拼接起来;所述逐点卷积采用1×1的卷积核对每个通道逐点卷积,卷积核个数与卷积输出的通道维数相同;所述批标准化单元用于依次完成近似白化预处理和变换重构操作,其中,所述近似白化预处理的公式如下:所述变换重构的公式如下:其中,E[xi]、分别表示第i个语音样本对应特征矢量xi的均值与标准差,是近似白化预处理后的结果,yi是重构后的特征向量,γi、βi是可调节的重构参数;所述第一激励单元采用ReLU作为激活函数,用于增加神经网络层与层之间的非线性关系;所述3个深度可分卷积模块中通道卷积所用卷积核大小均为3×3,卷积核个数与输入通道的维数m相同;逐点卷积所用的卷积核大小为1×1,卷积核个数与输出通道的维数n相同,分别取128、256、512;所述通道注意力模块包括两个节点数分别为128和512的全连接层;所述输出模块包括两个全连接层,第一全连接层的节点数为512,第一全连接层的输出结果作为话者语音样本的深度特征,第二全连接层的节点数为训练集话者的个数;所述第一激励单元中激活函数选用ReLU,得到归一化概率,从而进行分类;S3、将训练语音的对数梅尔谱特征输入通道注意力深度可分卷积网络,迭代更新神经网络参数直至神经网络收敛;S4、将注册语音的对数梅尔谱特征输入已训练的通道注意力深度可分卷积网络,得到注册语音的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;S5、将测试语音的对数梅尔谱特征输入已训练的通道注意力深度可分卷积网络,得到测试语音的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。

全文数据:

权利要求:

百度查询: 华南理工大学 基于通道注意力深度可分卷积网络的小样本话者辨认方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。