买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开一种基于听觉调制机制和对比学习的单通道语音分离方法,方法包括:1使用麦克风采集若干说话人的语音原始数据,随机选取多个不同说话人的语音信号在不同信噪比下混合构建语音数据集,并划分为训练集、验证集和测试集;2采用包络检波计算调制幅度谱和相位谱;3基于突变点检测和匹配方法在调制幅度谱上生成语音片段;4随机选取语音片段构建三元组;5基于正负样本欧氏距离在线筛选硬半硬三元组作为训练样本;6建立三重注意力对比学习网络模型,提取三元组中语音片段特征;7设计相似度损失函数,使用训练集更新三重注意力对比学习网络参数,并利用验证集选取网络最优超参数;8建立自适应神经结构演进网络以无监督的方式实现语音片段特征聚类;9基于聚类结果计算二值掩蔽,对不同说话人的语音重构获得分离后的语音;10将测试集中的混合语音信号输入训练好的模型得到分离后的语音。该方法结合听觉调制机制和对比学习方法,能够以语音信号作为输入实现在非接触状态下对说话人混合语音的精确分离。
主权项:1.一种基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于,包括以下步骤:步骤A、使用麦克风采集若干说话人的语音原始数据,随机选取多个不同说话人的语音信号混合构建语音数据集,并划分为训练集、验证集和测试集;步骤B、采用包络检波计算调制幅度谱和相位谱;步骤C、基于突变点检测和匹配方法在调制幅度谱上生成语音片段;步骤C1、使用突变点检测方法获得调制幅度谱的极大值点极小值点连线;步骤C2、利用突变点匹配方法生成语音片段;步骤D、随机选取语音片段构建三元组;步骤E、基于正负样本欧式距离在线筛选硬半硬三元组作为训练样本;步骤F、构建三重注意力对比学习网络提取语音片段特征;步骤F1、设计三重注意力机制,利用通道注意力区分不同通道的重要性,使用空间注意力聚合通道内的空间依赖性,通过多头自注意力捕获BLSTM层输出的长距离依赖关系;步骤F2、使用空间金字塔池化方法,统一不同大小语音片段的特征维度;步骤F3、设计相似度损失函数,缩小相同说话人语音片段特征之间的距离;步骤G、使用步骤E所述的训练样本更新三重注意力对比学习网络参数,通过验证集选择最优的超参数;步骤H、设计自适应神经结构演进网络对语音片段进行无监督自适应分类;步骤I、基于语音片段分类结果计算二值掩蔽,对不同说话人的语音片段语音重构,获得分离后的语音;步骤J、对于测试集中的待分离的混合语音,输入训练好的模型,得到分离后的语音。
全文数据:
权利要求:
百度查询: 青岛科技大学 一种基于听觉调制机制和对比学习的单通道语音分离方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。