长春理工大学张科获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉长春理工大学申请的专利一种跨模态的内窥镜手术图像文本描述生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121354119B 。
龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511905804.0,技术领域涉及:G06V20/70;该发明授权一种跨模态的内窥镜手术图像文本描述生成方法及系统是由张科;刘昊辰;蒋振刚;冯冠元;刘龙;温尊伟;张佳玉设计研发完成,并于2025-12-17向国家知识产权局提交的专利申请。
本一种跨模态的内窥镜手术图像文本描述生成方法及系统在说明书摘要公布了:本发明属于图像数据处理与生成技术领域,尤其为一种跨模态的内窥镜手术图像文本描述生成方法及系统。包括场景特征提取模块,用于并行处理内窥镜手术图像,提取手术场景的全局和局部视觉特征;实例编码模块,用于精确识别内窥镜手术图像中的手术器械、组织器官等关键对象,生成对应的分类信息并编码成图像类别特征;跨模态融合模块,通过自适应的通道叠加方式,对图像类别特征与全局视觉特征进行跨模态的特征融合;文本描述模块,用于对跨模态融合特征进行解码,生成内窥镜手术图像的文本描述。本发明通过跨模态特征融合技术,有效结合手术场景中的器械类别语义信息与全景视觉信息,提升了内窥镜手术图像处理的准确性和分析的完整性。
本发明授权一种跨模态的内窥镜手术图像文本描述生成方法及系统在权利要求书中公布了:1.一种跨模态的内窥镜手术图像文本描述生成方法,其特征在于,包括以下步骤: S1:以可迁移的蒸馏视觉Transformer作为实现路径,提取内窥镜手术场景中的全局和局部细节视觉特征; S2:以视觉Transformer模型作为实例分类的实现路径,同时,生成的类别特征以one-hot编码的形式呈现; S3:跨模态融合将场景特征和实例编码进行通道叠加的方式拼接,形成融合特征,特征融合模块通过挤压-激励注意力机制来自适应优化不同通道特征的表示,如公式所示: ; 其中,表示为实例编码特征,表示为场景全局特征,表示为跨模态融合特征,融合特征的每个通道代表不同特征,挤压-激励注意力机制通过全局池化操作将每个特征通道的信息压缩成单一数值形成通道描述符,随后,经小型全连接网络转换后,生成各通道的重要性权重; S4:解码器接收来自编码器的跨模态融合特征,通过多层自注意力机制和前馈神经网络,对这些特征进行处理和转换生成的特征序列;与预定义的语料库匹配,利用语料库生成的映射矩阵进行矩阵乘法运算,生成每个文本位置映射到词汇表中每个词的概率分布。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长春理工大学,其通讯地址为:130022 吉林省长春市南关区卫星路7089号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励