中科南京智能技术研究院李郡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中科南京智能技术研究院申请的专利基于平凡发音的说话人识别方法及相关设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116052644B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310028128.8,技术领域涉及:G10L15/02;该发明授权基于平凡发音的说话人识别方法及相关设备是由李郡;王啸;尚德龙;周玉梅设计研发完成,并于2023-01-09向国家知识产权局提交的专利申请。
本基于平凡发音的说话人识别方法及相关设备在说明书摘要公布了:本发明公开了一种基于平凡发音的说话人识别方法及相关设备,涉及智能识别领域,主要为解决目前缺少一种更精准的匹配平凡发音与其对应的说话人的方法的问题。该方法包括:将训练集划分为至少两个训练任务;基于支持集合的所有目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失;基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型;基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型。本发明用于基于平凡发音的说话人识别过程。
本发明授权基于平凡发音的说话人识别方法及相关设备在权利要求书中公布了:1.一种基于平凡发音的说话人识别方法,其特征在于,包括: 将训练集划分为至少两个训练任务,其中,每个训练任务包括至少两个说话人,每个说话人包括至少两句音频,每句音频分别建立有帧级别音素标签和说话人标签和对应的目标频谱特征,每个训练任务包括一个支持集合和六个查询集合; 基于所述支持集合的所有所述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失; 基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型; 基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型; 对实时音频进行实时频谱特征提取; 基于所述实时频谱特征检测所述实时音频中的平凡发音,其中,所述平凡发音为在口语对话中出现的、受说话人主观控制较弱的发音; 在目标实时音频中包含平凡发音的情况下,将所述目标实时音频的目标实时频谱特征输入到所述目标说话人嵌入层模型中以获取目标实时音频的说话人嵌入层; 基于注册人的平凡发音的频谱特征通过所述目标说话人嵌入层模型确定注册人的预设平凡发音嵌入层; 计算所述目标实时音频的说话人嵌入层与所述注册人的预设平凡发音嵌入层的余弦相似度; 基于所述余弦相似度确定所述目标实时音频的说话人与所述注册人的匹配情况。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科南京智能技术研究院,其通讯地址为:211135 江苏省南京市江宁区创研路266号麒麟人工智能产业园1号楼5层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励