北京科技大学李江昀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京科技大学申请的专利基于跨模态对齐的弱监督扒渣终点判断方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118552878B 。
龙图腾网通过国家知识产权局官网在2025-04-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410820785.0,技术领域涉及:G06V20/40;该发明授权基于跨模态对齐的弱监督扒渣终点判断方法和系统是由李江昀;刘科成;张天翔;王宏;庄培显;袁立设计研发完成,并于2024-06-24向国家知识产权局提交的专利申请。
本基于跨模态对齐的弱监督扒渣终点判断方法和系统在说明书摘要公布了:本发明公开一种基于跨模态对齐的弱监督扒渣终点判断方法和系统,包括:接入当前扒渣现场摄像头,将实时视频流数据输入训练完成的视频数据处理器;视频数据处理器以每一当前帧为基准,将包括当前帧在内向前共若干帧数据进行切割打包,输出当前帧的实时视频片段,作为训练完成的跨模态特征提取器的视频模态输入,同时以当前钢种文本编号和“非终点”文本作为跨模态特征提取器的文本模态输入;跨模态特征提取器提取视频片段特征和文本特征,将提取的视频片段特征和文本特征输入特征比对决策模块进行特征比对,最终输出当前帧是否为对应当前钢种扒渣终点的判断结果。本发明可以对扒渣终点进行准确判断。
本发明授权基于跨模态对齐的弱监督扒渣终点判断方法和系统在权利要求书中公布了:1.一种基于跨模态对齐的弱监督扒渣终点判断方法,其特征在于,所述方法包括:S1、接入当前扒渣现场摄像头,将实时视频流数据输入训练完成的视频数据处理器;S2、所述视频数据处理器以每一当前帧为基准,将包括当前帧在内向前共若干帧数据进行切割打包,输出当前帧的实时视频片段,作为训练完成的跨模态特征提取器的视频模态输入,同时以当前钢种文本编号和“非终点”文本作为所述跨模态特征提取器的文本模态输入;S3、所述跨模态特征提取器提取视频片段特征和文本特征,将提取的视频片段特征和文本特征输入特征比对决策模块进行特征比对,最终输出当前帧是否为对应当前钢种扒渣终点的判断结果;所述跨模态特征提取器包括视频特征提取器与文本特征提取器;所述视频特征提取器,首先对输入的视频片段根据设置的裁剪尺寸进行帧相同位置裁剪,将视频片段按像素位置被裁剪为数个互不重叠的视频片段块,每个视频片段块包括其所在位置的空间信息,将视频片段块作为patch级视觉向量输入视觉编码器V1进行视觉编码,输出具有空间表征能力的空间视觉特征,将空间视觉特征按帧维度展平得到若干个fream级视觉向量,在每个fream级视觉向量中加入帧序号位置编码表示帧间时序关系,并将附带帧序号位置编码的若干个fream级视觉向量同时送入视觉编码器V2,输出同时具有空间信息和时序信息的时空视觉特征,经过平均池化层输出最终的视频特征;将与视频片段对应的钢种文本编号和“非终点”文本输入所述跨模态特征提取器,所述文本特征提取器,将钢种文本编号和“非终点”文本经由Tokenization层分词后,将得到的分词向量输入文本编码器T1,得到和所述视频特征提取器输出的视频特征维度相同的文本特征,将文本编码器T1输出的文本特征,与所述视觉编码器V1输出的空间视觉特征,共同作为文本语义增强模块M1的输入,从空间角度强化丰富文本模态视觉表述能力,将所述文本语义增强模块M1输出的语义增强后的文本特征,与所述视觉编码器V2输出的时空视觉特征,共同作为文本语义增强模块M2的输入,进一步从空间与时序两角度强化丰富文本模态视觉表述能力,由所述文本语义增强模块M2输出最终的文本特征;所述视觉编码器V1和V2的结构相同,输入都为视觉向量,经过卷积层conv与投射层proj进行视觉向量映射后,送入首尾相接的6个由self-attention层和MLP层组成的注意力模块进行视觉特征抽取,输出与输入的视觉向量相同维度的视觉特征;所述文本编码器T1的输入为分词向量,经过词嵌入模型进行文本向量映射后,送入首尾相接的12个注意力模块进行文本特征提取,输出文本特征;所述文本语义增强模块M1和M2的结构相同,同时输入视觉特征与文本特征,输出融合视觉信息的文本特征,其中输入的视觉特征包括空间视觉信息或时空视觉信息,与输入的文本特征进行矩阵乘法后通过softmax层,再与输入的文本特征直接通过reshape操作的结果进行点乘,对文本特征进行重加权,最终得到融合扒渣过程中视觉特征包括的空间、时序信息的丰富语义信息,从更细粒度角度丰富语义信息的特征表示能力;所述跨模态特征提取器的训练还包括:将所述跨模态特征提取器输出的视频特征和文本特征,输入相似度计算模块,所述视频特征包括正例特征和负例特征,所述文本特征包括终点文本特征和非终点文本特征;所述相似度计算模块,首先通过卷积核大小为1的卷积对视频特征与文本特征进行高维映射维度对齐,对齐后的特征通过层标准化层进行归一化增加模型稳定性,输出高维视频特征与文本特征,分别计算“正例—终点文本”、“负例—终点文本”、“正例—非终点文本”、“负例—非终点文本”,共四组特征对的余弦相似度,得到由四组特征对的余弦相似度组成的相似度集合作为输出,其中各组特征对的余弦相似度计算过程如下:s=cosLayerNormprojv,LayerNormprojc其中v表示输入的视频特征,c表示输入的文本特征,s表示相似度计算结果;所述跨模态特征提取器的训练还包括:对所述跨模态特征提取器的对齐优化,具体包括:将所述相似度计算模块输出的相似度集合及原有跨模态特征提取器所提取的多模态特征,输入跨模态对齐优化模块,所述跨模态对齐优化模块,将“正例—终点文本”特征对相似结果和“负例—非终点文本”特征对相似结果定义为正向样本对相似结果sp,将“正例—非终点文本”特征对相似结果和“负例—终点文本”特征对相似结果定义为负向样本对相似结果sn,sp与sn间进行损失计算用以跨模态特征间对齐,损失函数选用infoNCEloss,损失值L计算方式如下: 其中k表示包括正负例所有视频片段样本数量,sk表示所有视频片段—文本对打分结果,sk=sp+sn,τ表示温度系数,用以控制损失函数内变量分布,此处取1;根据损失值计算结果进行梯度反向传播,在梯度反向传播的过程中,增大sp以求拉近正向样本对在特征空间内距离并降低损失值,减小sn以求拉远负向样本对在特征空间内距离并降低损失值,优化所述跨模态特征提取器的参数,充分训练得到优化后的跨模态特征提取器,进而优化所述跨模态特征提取器提取的视频特征和文本特征,训练完成的跨模态特征提取器能将视频特征、文本特征映射于同一特征空间且保证正向样本对间相似值大,负向样本对间相似值小;所述特征比对决策模块首先计算所述视频片段特征与终点文本特征的相似度,作为第一相似度,以及所述视频片段特征与非终点文本特征的相似度,作为第二相似度;对比计算结果:若所述第一相似度高于所述第二相似度,则记录当前帧序号,基于帧序号判断其前两帧是否同样为此结果,若判断成立,则判断当前帧为对应钢种的扒渣终点帧,若判断不成立,则判断当前帧为非扒渣终点帧,实时输出判断结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京科技大学,其通讯地址为:100083 北京市海淀区学院路30号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。