南京邮电大学季薇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于蒸馏的持续自监督多类型语音声学特征表示方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119832940B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510054722.3,技术领域涉及:G10L25/66;该发明授权一种基于蒸馏的持续自监督多类型语音声学特征表示方法是由季薇;石玥;李云设计研发完成,并于2025-01-14向国家知识产权局提交的专利申请。
本一种基于蒸馏的持续自监督多类型语音声学特征表示方法在说明书摘要公布了:本发明涉及深度学习技术领域,具体为一种基于蒸馏的持续自监督多类型语音声学特征表示方法,包括:语音数据的采集;对采集的语音数据进行预处理,并将预处理后的不同类型语音数据分配到不同训练阶段;初始化一个掩蔽自监督特征提取模型;根据模型输出的重构特征构建重演缓冲区并进行数据增强;在下一阶段更新掩蔽自监督特征提取模型,利用重演缓冲区进行特征蒸馏;得到拟提取的多类型语音的声学特征;该方法将多类型语音数据按序训练,能够防止不同数据发生数据冲突;其次,在重演缓冲区数据上利用余弦相似度作为正则项进行特征蒸馏来保留知识,可在防止旧知识遗忘的同时,增强模型的可塑性。
本发明授权一种基于蒸馏的持续自监督多类型语音声学特征表示方法在权利要求书中公布了:1.一种基于蒸馏的持续自监督多类型语音声学特征表示方法,其特征在于:所述方法包括: 步骤1、语音数据的采集:从已有的公开数据集中收集不同类型的受试者语音数据; 步骤2、对采集的语音数据进行预处理,并将预处理后的不同类型语音数据分配到不同训练阶段,假设总任务数为,对应T个训练阶段,第个训练阶段的语音数据子集记为,提取各训练阶段语音数据子集对应的梅尔语谱图特征,构造各训练阶段的训练子集,第t个训练阶段的训练子集记为; 步骤3、在第1个训练阶段初始化一个掩蔽自监督特征提取模型,使用步骤2中生成的第1个训练阶段的训练子集对该模型进行模型,得到掩蔽自监督特征提取模型;根据模型输出的重构特征构建重演缓冲区; 步骤4、时,在第t个训练阶段的训练子集上,对第t‑1个阶段得到的掩蔽自监督模型进行训练并更新模型参数,得到掩蔽自监督特征提取模型;根据模型输出的重构特征构建重演缓冲区;并在重演缓冲区上使用余弦相似度作为正则项进行特征蒸馏; 步骤5、令,重复执行步骤4,直至时训练完毕,最终得到掩蔽自监督特征提取模型,其输出即为拟提取的多类型语音的声学特征; 其中,所述步骤4,包括: S401、在训练子集上计算L1损失,对模型进行参数更新,得到更新后的掩蔽自监督特征提取模型; 其中,所述L1损失,计算公式为:; 其中,为输入序列,即原始的梅尔语谱图特征,为掩蔽自监督模型的输出序列,即重构的梅尔语谱特征; S402、复制第个训练阶段训练得到的掩蔽自监督模型,其模型参数代表第个训练阶段学习到的知识的集合; S403、将重演缓冲区的特征输入模型,输出重构的梅尔语谱图特征;将重演缓冲区特征输入,输出重构的梅尔语谱图特征; 计算和之间的余弦相似度作为正则项,则当两个模型输出的余弦相似度大于阈值时,特征相似,表示没有遗忘旧的知识; 基于此,定义损失函数:; 其中,计算了两个自监督模型和的输出特征的余弦相似度,; 其中,表示求二范数,表示向量的转置,余弦相似度的取值范围在[‑1,1]之间,1表示完全相似,‑1表示完全相反,0表示两者正交; S404、在训练子集上,参照S302挑选具有代表性的样本,构成重演缓冲区;参照S303对缓冲区采用二元混合策略进行数据增强,构建新的重演缓冲区并清除的数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励