首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

话者识别的方法、装置、设备、存储介质以及程序产品 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海明卉实业有限公司

摘要:本公开提供了话者识别的方法、装置、设备、存储介质及程序产品,涉及人工智能领域,具体涉及语音识别、深度学习、大数据以及云计算等领域。具体实现方案为:获取初始模型,初始模型包括特征提取网络;获取源域样本音频和目标域样本音频的样本特征,源域样本音频包括话者标签和领域标签,目标域样本音频包括领域标签;基于特征提取网络对源域样本音频和目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征;利用源域子句特征和目标域子句特征,训练初始模型,以生成话者识别模型,话者识别模型用于识别目标域待识别音频的说话者。根据本公开的技术,可以提高话者识别模型的训练效率、减少训练周期。

主权项:1.一种话者识别模型的生成方法,包括:获取初始模型,所述初始模型包括特征提取网络、话者识别网络和领域识别网络,所述特征提取网络包括第一门控循环单元、多个帧级别注意力层、统计池化层;获取源域样本音频和目标域样本音频的样本特征,所述源域样本音频包括话者标签和领域标签,所述目标域样本音频包括领域标签;利用所述第一门控循环单元对所述源域样本音频和所述目标域样本音频的样本特征进行分帧处理得到多个帧级别数据,并将多个所述帧级别数据映射至所述帧级别注意力层;利用所述帧级别注意力层从多个所述帧级别数据中提取重点帧级别数据,并输出至所述统计池化层,其中,不同的所述帧级别注意力层用于基于不同维度对多个所述帧级别数据进行关注和提取;利用所述统计池化层根据所述重点帧级别数据输出源域子句特征和目标域子句特征;利用所述源域子句特征和所述目标域子句特征训练所述领域识别网络;利用所述源域子句特征训练所述话者识别网络,其中,所述话者识别网络包括多个子句级别注意力层,不同的子句级别注意力层用于从所述源域子句特征中提取不同的重点子句特征;利用所述领域识别网络训练过程中的第一损失函数值和所述话者识别网络训练过程中的第二损失函数值,根据梯度下降算法对所述特征提取网络进行训练,以生成话者识别模型,其中,所述话者识别模型包括训练至收敛的目标话者识别网络和目标特征提取网络,所述话者识别模型用于识别目标域待识别音频的说话者;其中,所述话者识别网络包括第三门控循环单元、子句级别注意力层和特征表示层,其中,利用所述源域子句特征训练所述话者识别网络,包括:利用所述第三门控循环单元将所述源域子句特征映射至所述子句级别注意力层;利用所述子句级别注意力层从所述源域子句特征中提取重点子句特征,并输出至所述特征表示层;利用所述特征表示层基于所述重点子句特征输出话者识别结果;计算所述话者识别结果与所述话者标签的所述第二损失函数值,基于所述第二损失函数值调整所述话者识别网络,直至所述话者识别网络收敛。

全文数据:

权利要求:

百度查询: 上海明卉实业有限公司 话者识别的方法、装置、设备、存储介质以及程序产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。