Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学;中国电子科技集团公司电子科学研究院余宙获国家专利权

杭州电子科技大学;中国电子科技集团公司电子科学研究院余宙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学;中国电子科技集团公司电子科学研究院申请的专利基于深度局部自注意力网络的视频密集描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115205760B

龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210966913.3,技术领域涉及:G06V20/40;该发明授权基于深度局部自注意力网络的视频密集描述生成方法是由余宙;郑力祥;俞俊;袁柳;刘弋锋;刘小晗设计研发完成,并于2022-08-11向国家知识产权局提交的专利申请。

基于深度局部自注意力网络的视频密集描述生成方法在说明书摘要公布了:本发明提出一种基于深度局部自注意力网络的视频密集描述生成方法。本发明步骤如下:1、数据集预处理以及数据集的划分,使用训练好的行为识别网络对视频提取特征;2、构建视频结构化密集描述的序列,并构建该序列的文本特征;3、构建序列到序列建模的深度局部自注意力网络;4、通过反向传播算法对步骤3中的网络参数进行训练,直至整个网络模型收敛。本发明同时将密集视频描述中的事件定位与事件描述两个子任务联合建模为一个序列生成任务,将两个独立的子任务紧密联系在一起,起到相互促进的作用,相比于大部分两阶段方法模型没有过多的超参数需要手工调整,训练模型更加方便,性能有了进一步提升。

本发明授权基于深度局部自注意力网络的视频密集描述生成方法在权利要求书中公布了:1.基于深度局部自注意力网络的视频密集描述生成方法,其特征在于包括如下步骤: 步骤1:数据集预处理以及数据集的划分,使用训练好的行为识别网络对视频提取特征; 步骤2:构建视频结构化密集描述的序列,并构建该序列的文本特征; 步骤3:构建序列到序列建模的深度局部自注意力网络; 步骤4:通过反向传播算法对步骤3中的网络参数进行训练,直至整个网络模型收敛; 步骤3所述的构建序列到序列建模的深度局部自注意力网络,具体实现如下: 3-1.构建自适应局部掩码矩阵来屏蔽全局的感知; 3-1-1.首先构建初始矩阵公式如下: 其中i,j分别为矩阵的横纵坐标,fv为每秒传输帧数,t为总时长,a为视频进行采样间隔帧数; 3-1-2.视频特征F经过全连接映射转化为特征向量公式如下: X=LinearF公式9 3-1-3.特征向量X依次通过池化层、ReLU激活层、线性层得到局部因子α,公式如下: α=LinearReLUPoolingX公式10 3-1-4.局部因子α与初始矩阵M0相乘,通过函数Fx与自然对数计算得到自适应局部掩码矩阵Ml,公式如下: Ml=lnFαM0公式12 3-2.构建自适应局部自注意力编码器 将特征向量X和自适应局部掩码矩阵Ml作为SA的输入,输出公式如下: G=SAX,Ml公式13 SA的具体公式如下: G'=LNX+MHAX,X,X,Ml公式14 G=LNG'+FFNG'公式15 其中MHA的输入是X和自适应局部掩码矩阵Ml,输出是包含视频前后帧信息的特征向量G',FFN的输入是特征向量G',公式如下: Q=LinearX公式16 K=LinearX公式17 V=LinearX公式18 其中分别由X经过全连接层映射得到; 3-3.深度堆叠编码器 以特征向量X作为输入编码器,深度堆叠编码器,将堆叠的第N层编码器的输出特征XN作为第N+1层编码器的输入,迭代往复,最终得到编码后的视频特征X'; 3-4.构建解码器 前n个单词的文本特征Ln经过全连接映射加上位置编码转化为特征向量 公式如下: 其中pos∈[1,2,…,…,t],i∈[0,1,2,…,…,dm2] Y=LinearL+PEn公式22 将特征向量Y和掩码矩阵Mt∈{-∞,0}n×n作为SA的输入,输出公式如下: Y'=SAY,Mt公式24 其中i,j分别为矩阵的横纵坐标; 将X',Y'作为GA的输入,输出公式如下: Z=GAX',Y'公式25 GA的具体公式如下: Z'=LNY'+MHAX',X',Y'公式26 Z=LNZ'+FFNZ'公式27 3-5.深度堆叠解码器 以视频特征X'与文本特征Y作为解码器输入,深度堆叠解码器,将视频特征X'和第N层解码器的输出特征IN作为第N+1层解码器的输入,迭代往复,最终得到多模态视频文本特征 3-6.计算损失函数 将3-5输出的多模态视频文本特征I经过全连接层得到预测序列 公式如下: Wn=LinearI公式28 将预测序列Wn同对应的目标序列Ln一起输入到最大似然估计损失函数中,计算预测序列与真实序列之间的差距,具体公式如下: 其中,b为视频结构化密集描述的序列C所包含的单词数量。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学;中国电子科技集团公司电子科学研究院,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。