首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于注意力机制联合密集结构与Transformer的视觉问答方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:河南众诚信息科技股份有限公司

摘要:本发明涉及计算机视觉技术领域,尤其涉及一种基于注意力机制联合密集结构与Transformer的视觉问答方法及系统,该方法包含:分析视觉问答问题的本质特点,基于统计分析理论,对视觉问答问题进行数学建模。针对已有视觉问答方法未考虑图像之间关联信息的不足,设计基于YOLOv7目标检测模型的训练数据集初始化方法。基于密集结构、注意力机制以及Transformer,构造视觉问答模型DensAttens‑Trans。针对所设计的DensAttens‑Trans模型,构造基于交叉熵损失的损失函数,并利用初始化后训练数据集完成对DensAttens‑Trans模型的训练工作,从而使得计算机系统理解和回答关于图像的自然语言问题。本发明给出更加鲁棒、拟合度高、实时性且符合人类思维的文本答案。

主权项:1.一种基于注意力机制联合密集结构与Transformer的视觉问答方法,其特征在于,包含:分析视觉问答问题的本质特点,基于统计分析理论,对视觉问答问题进行数学建模;利用YOLOv7目标检测模型获取各训练图像对应的目标检测结果,将所获得的目标检测结果作为标签加入到各训练图像、问题和答案中,完成对训练数据集的初始化;分析初始化后训练数据集中各类图像的光学属性和成像特性,基于通道注意力构造图像特征编码模块;根据初始化后训练数据集中自然语言问题的语义与结构信息,构造融合密集结构与Transformer编码结构的问题特征编码模块;结合图像特征编码结果与问题特征编码结果,构造特征解码模块;综合图像特征编码模块、问题特征编码模块和特征解码模块,基于特征选择方案,构造视觉问答模型DensAttens-Trans;结合初始化后训练数据集,利用构造的基于交叉熵损失的损失函数对DensAttens-Trans模型训练,利用训练后的DensAttens-Trans模型即可实现给定1幅图像和1个自然语言问题从而获取答案的视觉问答。

全文数据:

权利要求:

百度查询: 河南众诚信息科技股份有限公司 基于注意力机制联合密集结构与Transformer的视觉问答方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。