首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。

主权项:1.一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,其特征在于,具体步骤如下:步骤1,视频场景分割,1.1,收集电视台公开的粤语新闻播报视频,视频中新闻主播需要使用粤语播报新闻;1.2,使用一种基于HSV图像信息的检测算法处理1.1中的视频,根据场景信息的变化得到切割后的不同场景的视频;步骤2,目标人脸分类,2.1,使用人脸检测工具FaceRecognition检测得到的场景视频中的人脸,对于不包含人脸或者包含一个以上人脸的视频将会直接丢弃;2.2,对于只包含一个人脸的场景视频,使用FaceRecognition计算该人脸和目标主播人脸的128维度人脸特征向量;2.3,计算2.2中两个特征向量的余弦相似度,若大于设定的阈值,则认为该场景视频为仅包含目标主播播报的视频片段,将其加入该目标主播文件夹中,否则丢弃该视频;步骤3,语音后处理,3.1,对于目标主播文件夹中的视频,使用FFmpeg工具提取视频对应的音频;3.2,利用语音活动检测VoiceActivityDetection,VAD方法,对语音中出现的停顿进行检测并分割,同时会得到分割的停顿点信息,该步骤形成音频模态的数据;3.3,利用分割的停顿点信息去切分对应的视频,得到与音频片段对应的视频片段,该步骤形成视频模态的数据;其中,步骤1中所选择的一种基于HSV图像信息的检测算法能够比较相邻两帧图像之间HSV信息的变化量,如果该变化量超过所设定的阈值,则认为视频在此处发生场景变化;视频中的一帧图像是三通道的RGB数据,首先将其转换为三通道的HSV数据,转换方式如公式1-3所示:V=maxR,G,B1 其中,R、G、B分别为每个像素的红绿蓝三个通道的值,若计算后的H值小于0,则H=H+360,将饱和度S和亮度V扩大255倍,色调缩小为原始的一半,最终得到HSV格式的数据也是一种包含三个通道的数据,得到两张相邻视频帧的HSV格式的数据后,再去计算相邻两张图片的每个像素每个通道的HSV数据的平均差值,如果这个差值大于设置的阈值,则说明场景变化较大,即在此处发生了场景的切换,具体计算差值的方式如公式4所示, 其中Flast和Fcurrent表示上一帧与当前帧的HSV格式像素值,m,n表示视频帧的高度和宽度大小,i表示当前计算的是第i个通道的数据,score表示两帧之间的差异评分,评分越高代表它们之间的差异度越大,越有可能作为场景的切换点,将阈值设置在27。

全文数据:

权利要求:

百度查询: 东南大学 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。