中山大学·深圳;中山大学;深圳广电数字科技有限公司陈嘉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学·深圳;中山大学;深圳广电数字科技有限公司申请的专利基于广播新闻的方言语音识别模型语料库构建方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119851652B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411878226.1,技术领域涉及:G10L15/00;该发明授权基于广播新闻的方言语音识别模型语料库构建方法和装置是由陈嘉;胡俊;陈曾平;周俊杰;陈颖丛;陈章华;姚钦洪设计研发完成,并于2024-12-19向国家知识产权局提交的专利申请。
本基于广播新闻的方言语音识别模型语料库构建方法和装置在说明书摘要公布了:本发明公开了基于广播新闻的方言语音识别模型语料库构建方法和装置,方法包括:获取广播新闻视频,所述广播新闻视频中具有第一字幕;对所述广播新闻视频进行音轨提取,得到广播新闻音频;根据所述广播新闻音频,计算静音点列表;根据所述静音点列表,计算自然语音起止时间列表;根据所述广播新闻视频,计算关键帧时间轴;根据所述自然语音起止时间列表和所述关键帧时间轴,生成初始语料数据集;根据所述初始语料数据集,构建方言语音识别模型语料库。本发明实现了语料库构建,提高了效率和准确率,降低了语料库管理成本。本发明可广泛应用于模型语料库技术领域。
本发明授权基于广播新闻的方言语音识别模型语料库构建方法和装置在权利要求书中公布了:1.基于广播新闻的方言语音识别模型语料库构建方法,其特征在于,包括以下步骤: 获取广播新闻视频,所述广播新闻视频中具有第一字幕; 对所述广播新闻视频进行音轨提取,得到广播新闻音频; 根据所述广播新闻音频,计算静音点列表; 根据所述静音点列表,计算自然语音起止时间列表; 根据所述广播新闻视频,计算关键帧时间轴; 根据所述自然语音起止时间列表和所述关键帧时间轴,生成初始语料数据集; 根据所述初始语料数据集,构建方言语音识别模型语料库; 其中,所述根据所述广播新闻视频,计算关键帧时间轴,包括: 对所述广播新闻视频进行帧分解,得到若干个视频帧; 设置字幕位置范围; 根据所述字幕位置范围,从所述视频帧中提取字幕图像; 对所述字幕图像进行二值化处理,得到二值化图像; 根据光流函数,计算所述二值化图像中每个像素点的光流变化; 根据所述光流变化,计算关键帧序列; 根据所述关键帧序列和视频帧率,计算所述关键帧时间轴; 所述根据所述自然语音起止时间列表和所述关键帧时间轴,生成初始语料数据集,包括: 从所述自然语音起止时间列表中提取第一语句段; 从所述关键帧时间轴中提取第二语句段,所述第二语句段的序号与所述第一语句段的序号相同; 根据所述第一语句段的开始时间与所述第二语句段的开始时间,计算开始时间差; 根据所述第一语句段的结束时间与所述第二语句段的结束时间,计算结束时间差; 若所述开始时间差大于时间差阈值或所述结束时间差大于所述时间差阈值,则将所述第一语句段从所述自然语音起止时间列表中删除,得到校正时间轴; 从所述广播新闻视频中提取所述校正时间轴中每个关键帧对应的第一字幕; 根据所述校正时间轴和所述第一字幕,生成第一时间文字关系表; 根据预设切割时长,将所述广播新闻音频进行切割,得到子音频; 根据所述预设切割时长,将所述第一时间文字关系表进行切割,得到子语句; 将所述子音频和所述子语句进行组合,得到文字音频组合; 根据多个所述文字音频组合,生成所述初始语料数据集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学·深圳;中山大学;深圳广电数字科技有限公司,其通讯地址为:518107 广东省深圳市光明区新湖街道公常路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励