买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学
摘要:本发明公开的一种基于复杂场景的自适应声纹识别方法,属于语音领域的自适应声纹识别领域。本发明实现方法为:构建域自适应声纹模型,基于CN‑Celeb数据采用增量学习策略训练自适应声纹模型,通过模型蒸馏实现对已有源域知识的保留和对目标域知识的快速吸收,避免在域迁移过程中的灾难性遗忘;自适应声纹模型通过联合源域和目标域的半监督训练方法,优化自适应声纹模型在两个域上的表现,使自适应声纹模型能够适应新的数据分布,在复杂场景中基于训练好的域自适应声纹模型实现自适应声纹识别,有效克服灾难性遗忘现象。本发明能够提升对复杂场景中自适应声纹识别的准确率和鲁棒性。本发明尤其是能够提升在戏剧、歌声等多变环境下识别的准确率和鲁棒性。
主权项:1.一种基于复杂场景的自适应声纹识别方法,其特征在于:包括如下步骤,步骤一:数据集的准备、域划分与标签化声音数据收集:通过开源中文数据集CN-Celeb,采集声音数据,得到数据集;并根据场景将数据集划分为源域数据和目标域数据;对源域数据进行标签化,为每个说话人分配一个唯一的标识符,而目标域数据保持无标签状态;步骤二:声纹特征提取与分类模型构建;采用学生声纹模型,对步骤一的源域数据进行处理,从语音信号中提取源域说话人的特征;对特征进行说话人分类,利用步骤一的标识符监督学生声纹模型训练;步骤三:采用SimCLR方法进行目标域特征学习,基于无监督学习与目标域特征适应学习,得到无监督学习与目标域特征;步骤四:利用步骤一的源域数据训练教师声纹模型,得到训练好的教师声纹模型;从教师声纹模型中提取关键的隐层特征和说话人分类决策信息;再通过模型蒸馏技术,将教师模型的隐层特征和分类决策信息转移到学生声纹模型中,训练好后得到自适应声纹模型;以强化学生模型对源域知识的保留;步骤五:对步骤四训练好的自适应声纹模型进行测试与验证,在复杂场景中基于训练好的域自适应声纹模型实现自适应声纹识别。
全文数据:
权利要求:
百度查询: 北京理工大学 一种基于复杂场景的自适应声纹识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。