华中科技大学;中国平安财产保险股份有限公司魏巍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华中科技大学;中国平安财产保险股份有限公司申请的专利一种基于统一解码器的场景图生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119359904B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411333511.5,技术领域涉及:G06T17/00;该发明授权一种基于统一解码器的场景图生成方法是由魏巍;廖心瑶;陈当阳;付园园设计研发完成,并于2024-09-24向国家知识产权局提交的专利申请。
本一种基于统一解码器的场景图生成方法在说明书摘要公布了:本发明公开了一种基于统一解码器的场景图生成方法,该方法包括以下步骤:1图像特征提取;2提取得到图像特征之后,使用解码器预测关系三元组;3根据关系三元组估计获得的视觉三元组,得到最终生成的场景图。本发明提出了一种新颖的单阶段场景图生成架构,由具有任务特定查询的统一解码器构建,为关系三元组预测中的弱耦合问题提供了一个可用的解决方案,利用特定于任务的查询来分别定位实体,并在三元组中融合语义特征以共享耦合特征,以更少的参数实现了更优的性能。
本发明授权一种基于统一解码器的场景图生成方法在权利要求书中公布了:1.一种基于统一解码器的场景图生成方法,其特征在于,包括以下步骤: 1图像特征提取; 对于给定的原始图片将其映射到高层级图像特征 其中,3表示3个颜色通道,Ho为图像的像素高度,W0为图像的像素宽度;C表示特征图X的通道的数量,H,W对应于特征图X的空间维度; 然后,采用Transformer编码器将空间尺寸展开,对特征X提取更紧凑的特征并在每一层添加位置编码 其中,d为特征Y的维数; 2提取得到图像特征之后,使用解码器预测关系三元组; 所述解码器包括采用三个固定大小的特定任务查询,即主语查询Qs∈RN×d、宾语查询Qo∈RN×d和谓词查询Qp∈RN×d作为输入,并利用参数共享解码器一次生成特定任务的表示; 具体如下: 2.1生成三组特定于任务的查询:主语查询、宾语查询和谓词查询;三组学习的查询嵌入Qs、Qo、Qp,每组查询都有N个d维表示,qs,i,qo,i,qp,i表示第i个三元组查询; 其中, 2.2对解码器层l采用多层感知器MLP连接前一层解码器层输出的查询; 2.3运行自注意机制来模拟三元组内主语宾语谓词的相互作用; 在特定的解码器层l,的大小为bs,N,d,将特定于任务的三组查询重塑为1,bs×N,d的维度,随后将它们连接成具有维度3,bs×N,d的三元组查询将每个三元组组织为序列; 其中bs是批量大小的数量; 在每个三元组中运行自注意力机制,并显式地模拟不同子任务之间空间和语义信息的交互; 由于transformer架构具有位置不变性,与查询共享相同形状的位置编码经历与查询类似的变形过程以形成然后添加到每个注意力层的输入中; 其中,分别表示解码器层l中,的位置编码; 2.4通过自注意力操作分别捕获主语、宾语和谓词的上下文,并通过交叉注意力操作并行地从图像表示中提取视觉特征,以建模特定于每个子任务的解耦特征; 其中,主语自注意力操作和交叉注意力操作表示如下: 解码器最后一层的输出为获得特定任务的表示:Zs,Zo,Zp; 2.5将参数共享解码器一次生成特定任务的表示Zx,x∈{s,o,p}输入前馈网络FNN,生成一组关系三元组估计 其中,表示根据特定任务查询和输入的图像特征Y获得的关系三元组估计; 3根据关系三元组估计获得的视觉三元组,得到最终生成的场景图。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华中科技大学;中国平安财产保险股份有限公司,其通讯地址为:430074 湖北省武汉市武昌珞喻路1037号华中科技大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励