北京奇艺世纪科技有限公司程婷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京奇艺世纪科技有限公司申请的专利说话人确定方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115881135B 。
龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211576598.X,技术领域涉及:G10L17/06;该发明授权说话人确定方法、装置、电子设备及存储介质是由程婷设计研发完成,并于2022-12-08向国家知识产权局提交的专利申请。
本说话人确定方法、装置、电子设备及存储介质在说明书摘要公布了:本发明实施例提供的说话人确定方法、装置、电子设备及存储介质,包括,从待识别的视频文件中分离获取音频文件和图像文件;按照每个音频段对应的起止时间对音频文件进行音频切割,得到多个音频片段信息,以及对图像文件进行人脸识别,得到每个起止时间对应的人脸信息;对每个音频片段信息进行声纹特征提取,得到每个音频片段信息对应的声纹特征;基于人脸信息和声纹特征确定每个音频段对应的说话人。本发明通过人脸信息和声纹特征即能准确确定出每个音频段对应的说话人,无需通过建立声纹特征库检索比对确定说话人,大大降低了工作量、难度和局限性,有效提高了说话人确定的准确性和效率。
本发明授权说话人确定方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种说话人确定方法,其特征在于,所述方法包括: 从待识别的视频文件中分离获取音频文件和图像文件; 按照每个音频段对应的起止时间对所述音频文件进行音频切割,得到多个音频片段信息,以及对所述图像文件进行人脸识别,得到每个所述起止时间对应的人脸信息; 对每个所述音频片段信息进行声纹特征提取,得到每个所述音频片段信息对应的声纹特征; 基于所述人脸信息和所述声纹特征确定每个所述音频段对应的说话人; 所述基于所述人脸信息和所述声纹特征确定每个所述音频段对应的说话人,包括: 对多个所述声纹特征进行聚类处理,得到多个聚类类别; 针对每个所述聚类类别,统计所述聚类类别中对应的目标起止时间内出现的目标人脸信息的出现时长; 将所述出现时长超过预设时长阈值的目标人脸信息对应的目标对象与所述聚类类别进行关联; 所述方法还包括: 查询每个所述聚类类别是否关联多个目标对象; 将关联多个目标对象的所述聚类类别确定为第一聚类类别,将关联一个目标对象的所述聚类类别确定为第二聚类类别; 在第二聚类类别中查找是否与所述第一聚类类别关联同一特定目标对象的目标第二聚类类别; 在查找到所述目标第二聚类类别的情况下,计算所述第一聚类类别的第一聚类中心特征与所述目标第二聚类类别的第二聚类中心特征的聚类相似度; 在所述聚类相似度大于预设聚类相似度阈值的情况下,将所述特定目标对象与所述第一聚类类别关联。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京奇艺世纪科技有限公司,其通讯地址为:100080 北京市海淀区北一街2号鸿城拓展大厦10、11层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励