买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳市北电正光科技有限公司
摘要:本发明属于通信技术领域,公开了一种基于语音识别的视频会议图像跟踪方法及系统,包括配置语音识别系统,对参会人员进行样本声音的采集,特征提取获得音频特征,和对应的个人身份信息存储于特征数据库;获取会议内的声音信息,通过语音识别技术识别当前发言人的声音特征,与特征数据库进行匹配,获取对应的个人身份信息;当前发言人移动时,根据声阈的变化驱动视频跟踪单元跟踪,并相应地更新其图像信息;结合声音传播特点连贯准确地追踪到发言人,对硬件要求更低,计算量相对较小,通过语音识别技术实现视频会议中的图像跟踪,降低了对环境条件的限制,显著提高了会议的互动性和管理效率,在各种场景下都能保持高效的识别和跟踪性能。
主权项:1.一种基于语音识别的视频会议图像跟踪方法,其特征在于,包括:配置语音识别系统,通过所述语音识别系统对参会人员进行样本声音的采集,并对采集的样本声音进行特征提取,获得音频特征,将所述音频特征和对应的个人身份信息存储于特征数据库;会议中,所述语音识别系统获取会议内的声音信息,通过语音识别技术识别当前发言人的声音特征;根据识别的所述声音特征与所述特征数据库进行匹配,获取对应的个人身份信息,在显示界面上显示视频跟踪单元获取的图像信息和对应的个人身份信息;所述语音识别系统持续获取会议内的声音信息,通过判断声音信息的波强变化,判断当前发言人是否移动;若否,则继续显示当前图像信息;若是,则根据声阈的变化驱动所述视频跟踪单元跟踪,并相应地更新其图像信息;其中,所述配置语音识别系统,通过所述语音识别系统对参会人员进行样本声音的采集,并对采集的样本声音进行特征提取,获得音频特征,将所述音频特征和对应的个人身份信息存储于所述特征数据库;具体包括:根据视频会议的使用需求,选择语音识别系统的偏好,并设定声音样本的采集参数;所述采集参数包括采样率、位深、声道数;设计一个用于采集声音样本的注册界面,使所述注册界面和参会人员的个人终端进行关联;通过所述注册界面引导参会人员在静音环境下录制声音样本,录制完成后,将采集的声音样本上传至语音识别系统的服务器端;采用声音处理算法对所述声音样本进行分析,提取出代表每个参会人员声音特性的音频特征;所述音频特征包括音高、音色、发音速度和语调模式;将提取出的音频特征与对应的个人身份信息共同存储在特征数据库中,其中,所述特征数据库设计有检索模块;对所述语音识别系统进行测试和验证,验证语音识别系统的准确性和响应速度;其中,所述根据识别的所述声音特征与所述特征数据库进行匹配,获取对应的个人身份信息,在显示界面上显示视频跟踪单元获取的图像信息和对应的个人身份信息;具体包括:启动特征匹配模块,所述特征匹配模块接收到所述语音识别系统识别的所述声音特征,采用特征匹配算法,从所述特征数据库中检索匹配的音频特征;根据检索到的音频特征,从所述特征数据库中调取对应的个人身份信息;将调取的所述个人身份信息与视频跟踪单元获取的实时图像信息进行整合,将所述个人身份信息嵌入到所述图像信息中;根据视频会议的布局要求,对整合后的所述图像信息和所述个人身份信息进行格式化处理;所述格式化处理包括调整信息显示的位置、大小和比例;将格式化后的图像信息和个人身份信息实时显示在视频会议的显示界面上;设置一个反馈机制,实时监控显示界面的图像清晰度、信息同步性和显示延迟,以评估显示效果的质量;其中,所述语音识别系统持续获取会议内的声音信息,通过判断声音信息的波强变化,判断当前发言人是否移动;具体包括:所述语音识别系统持续获取会议内的声音信息,并实时对所述声音信息进行更新;通过声音信号处理模块分析实时更新的声音信息的波强变化,并与样本声音的波强进行对比,以检测声音强度的微小变化值,将微小变化值对所述声音信息的波强变化进行补偿,获得全面波强变化值;根据获得的所述全面波强变化值与预设的波强阈值来比较,来判断当前发言人是否移动,当所述全面波强变化值位于所述波强阈值内时,则判断当前发言人没有移动;当所述全面波强变化值超出所述波强阈值时,则判断当前发言人为移动;其中,根据声阈的变化驱动所述视频跟踪单元跟踪,并相应地更新其图像信息;具体包括:通过分析声音信号的强度变化、频率变化及其时间序列的特征来确定声阈的变化,根据声阈的变化来判定发言人移动距离和方向的关键移动参数;所述视频跟踪单元接收到所述关键移动参数,评估所述关键移动参数对跟踪目标位置的影响,根据评估结果调整所述视频跟踪单元的跟踪算法参数;所述视频跟踪单元利用调整后的跟踪算法参数,应用图像识别和物体追踪技术执行图像捕捉工作,以锁定更新后的发言人位置并进行图像获取,获得更新的图像信息;所述视频跟踪单元将更新的图像信息与当前发言人的个人身份信息重新整合并在显示单元上显示;所述图像信息的更新过程中,根据环境变化的动态响应对所述视频跟踪单元的跟踪算法参数进行误差补偿;所述环境变化包括环境光线变化、非发言人的移动;根据所述视频跟踪单元的跟踪效果,优化所述声阈变化的判断阈值,以及图像识别和物体追踪技术的运行参数。
全文数据:
权利要求:
百度查询: 深圳市北电正光科技有限公司 一种基于语音识别的视频会议图像跟踪方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。