首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种语音识别耗时确定方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:腾讯科技(深圳)有限公司

摘要:本发明实施例公开了一种语音识别耗时确定方法和装置;本发明实施例可以获取待检测视频,对相邻视频帧中的文本信息进行比较,确定相邻视频帧之间的文本差异信息,根据相邻视频帧的文本差异信息,确定视频帧中包含目标文本的目标视频帧,根据目标视频帧的时间戳确定目标文本的首次显示时间,从待检测视频中提取用户交互语音,检测用户交互语音中目标文本的首次发声时间,根据同一目标文本对应的首次显示时间和首次发声时间,确定待检测视频对应的语音识别响应耗时;由此,在确定语音识别响应耗时过程中可以减少对人工的依赖,节约人力资源,在保障准确性的基础上提高确定语音识别响应耗时的效率。

主权项:1.一种语音识别耗时确定方法,其特征在于,包括:获取待检测视频,所述待检测视频中的视频帧均带有时间戳,所述待检测视频包括用户交互语音,所述视频帧上显示有文本信息,所述视频帧上的文本信息通过对所述用户交互语音中所述视频帧对应的语音信息进行语音识别得到;对所述视频帧进行文本检测,获取各视频帧中的文本信息;计算相邻视频帧中的文本信息之间的文本相似度;基于所述相邻视频帧之间的文本相似度,确定与前一帧视频帧的文本相似度小于第一相似度阈值,且与后一帧视频帧的文本相似度不小于第一相似度阈值的视频帧,作为所述待检测视频中第一个包含所述用户交互语音中的首字的目标首字帧;基于所述相邻视频帧之间的文本相似度,确定与前一帧视频帧的文本相似度不小于第一相似度阈值,且与后一帧视频帧的文本相似度不小于第二相似度阈值的视频帧,作为所述待检测视频中第一个包含所述用户交互语音中的尾字的目标尾字帧,所述第二相似度阈值不小于所述第一相似度阈值,其中,所述目标首字帧与目标尾字帧之间的视频帧中,相邻视频帧的文本相似度不小于所述第一相似度阈值;根据所述目标首字帧的时间戳,确定所述用户交互语音中首字的首字首次显示时间,根据所述目标尾字帧的时间戳,确定所述用户交互语音中尾字的尾字首次显示时间;获取所述用户交互语音对应的参考语音,所述参考语音中的语音内容与所述用户交互语音中的语音内容相同;从所述待检测视频中提取用户交互语音;在所述用户交互语音中确定语音获取起始点,从所述语音获取起始点开始,选择预设时长的语音作为候选语音,所述候选语音的时长等于所述参考语音的时长;计算所述参考语音和所述候选语音之间的语音相似度;在所述用户交互语音中当前的语音获取起始点之后,选择新的语音获取起始点;返回执行所述从所述语音获取起始点开始,选择预设时长的语音作为候选语音的步骤,直到所述用户交互语音的结束点参与所述语音相似度的计算;确定与所述参考语音的语音相似度最高的候选语音,作为目标语音;根据所述目标语音在所述用户交互语音中的起始位置和结束位置,确定所述用户交互语音的所述首字发声时间和所述尾字发声时间;根据所述首字的首次显示时间和首字发声时间,确定第一语音识别响应耗时,根据所述尾字的首次显示时间和尾字发声时间,确定第二语音识别响应耗时,基于所述第一语音识别响应耗时和所述第二语音识别响应耗时,确定所述待检测视频对应的语音识别响应耗时。

全文数据:

权利要求:

百度查询: 腾讯科技(深圳)有限公司 一种语音识别耗时确定方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。