Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

视频通话中视频图像的处理方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明涉及视频处理技术领域,尤其涉及一种视频通话中视频图像的处理方法及系统,包括:通过DenseNet算法监测实时视频通话中的用户是否离开摄像头拍摄区域,若离开则执行下一步。收集用户视频数据,提取语音信息和人脸信息特征,人脸信息包括面部表情和口型动作,建立语音匹配人脸视频算法。输入新的语音信息特征,生成虚拟人脸视频,并与原始视频融合替换。利用人脸关键点检测算法实时监测用户人脸是否回位,若回位则恢复原始视频通话流程。本发明实现了用户离开摄像头时自动切换到虚拟人脸视频通话,用户回到摄像头范围内时自动恢复原始视频通话流程,提升了视频通话的用户体验和连续性。

主权项:1.一种视频通话中视频图像的处理方法,其特征在于,包括以下步骤:步骤1:在实时视频通话中,通过DenseNet算法,监测用户的人脸是否离开摄像头拍摄区域,当监测到人脸离开时,则执行步骤2;步骤2:模拟人脸视频通话,包括:获取用户视频:收集当前视频通话环境下的用户视频数据;特征提取:从用户视频中提取语音信息特征和人脸信息特征,人脸信息特征包括面部表情特征和口型动作特征;建立模型:以语音信息特征为输入,人脸信息特征为输出,建立语音匹配人脸视频算法;视频生成:获取新的语音信息,提取新的语音信息特征,将新的语音信息特征输入所述语音匹配人脸视频算法,生成与新的语音相匹配的虚拟人脸视频;视频融合更新:将生成的虚拟人脸视频与原始用户视频进行融合,并替换到当前视频通话中用户对应的视频画面中;人脸复位检测:通过人脸关键点检测算法,实时监测用户的人脸是否回到摄像头拍摄区域,如果检测到用户的人脸已经回位,则执行步骤3;步骤3:将当前视频通话恢复到原始的视频通话流程,继续进行真实的视频通话交流;其中,所述DenseNet算法的构建步骤包括:数据采集:采集包含人脸离开摄像头拍摄区域的视频数据集和不同角度、光照条件下的人脸图像数据集作为训练数据;数据预处理:对采集到的视频数据和人脸图像数据进行预处理,包括人脸检测、裁剪和尺寸调整操作;数据划分:将经过预处理的数据划分为训练数据集和测试数据集;搭建DenseNet模型:构建用于人脸监测的DenseNet模型;训练模型:将训练数据集输入到DenseNet模型中进行训练,通过监督学习方式使模型学习人脸是否离开摄像头拍摄区域的特征;模型评估:使用测试数据集评估训练好的模型性能,包括准确率、召回率和F1值指标,根据评估结果进行模型调优;部署模型:将训练好的DenseNet模型部署到实时视频通话系统中;持续优化:持续收集用户反馈数据,对模型进行更新和优化;所述从用户视频中提取语音信息特征为通过预设的声纹识别与语音情感分析复合模型实现;所述声纹识别与语音情感分析复合模型的构建方法包括:音频收集:收集视频通话系统中用户已授权的用户视频;提取音频:通过FFmpeg从用户视频文件中提取音频部分;声音分割:利用VAD算法对提取的音频进行声音分割,得到语音片段;预处理:对每个语音片段进行预处理,包括去除噪音、降噪和音频增强;特征提取:利用声纹识别算法和语音情感分析算法分别从每个语音片段中提取音频特征,包括声音的频谱特征、声纹特征、情感特征和语调特征;特征表示:将提取的音频特征表示成特征矩阵;模型训练:使用SVM算法建立声纹识别与语音情感分析复合模型,通过训练数据集学习特征与对应标签之间的关系;模型测试与评估:使用测试数据集评估已训练模型的性能表现,包括准确率、召回率、混淆矩阵和ROC曲线指标;应用部署:将训练好的声纹识别和语音情感分析模型部署到实时视频通话系统中;所述语音匹配人脸视频算法的构建方法包括:准备语音信息和对应的人脸信息数据集;提取准备的数据集的语音信息特征和人脸信息特征;选择CNN模型,将语音信息特征作为输入,人脸信息特征作为输出,搭建语音匹配人脸视频算法的模型架构;使用准备好的数据集,对搭建的模型架构进行训练,通过反向传播算法不断调整模型参数,使得模型能够从语音信息中匹配出对应的人脸信息;对训练好的模型进行评估,使用验证集或测试集来评估模型的性能表现,根据评估结果,对模型进行调参和优化;将训练好的语音匹配人脸视频算法部署到实时视频通话系统;所述通过人脸关键点检测算法,实时监测用户的人脸是否回到摄像头拍摄区域,包括:通过摄像头实时捕获用户的人脸图像,并将捕获到的人脸图像输入至预先设置的Hourglass网络中进行人脸位置检测;根据Hourglass网络输出的结果,基于人脸位置的坐标信息判断用户的人脸是否回到摄像头拍摄区域。

全文数据:

权利要求:

百度查询: 广州米麦文化传媒有限公司 视频通话中视频图像的处理方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。