买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供一种基于知识增强的视觉问答方法及平台,属于人工智能技术领域,其中方法包括:获取用户输入的图像和问题文本,得到输入文本;将输入文本输入至视觉问答模型的检索器,得到多个相关外部知识;将多个相关外部知识分别与输入文本拼接,得到多个拼接后的输入文本,将多个拼接后的输入文本输入至视觉问答模型的答案生成器,得到每一拼接后的输入文本对应的答案文本,将输入文本输入至答案生成器,得到输入文本对应的答案文本,确定输入文本对应的最终的目标答案文本;其中,视觉问答模型是对初始视觉问答模型的初始答案生成器和初始检索器进行联合训练得到的。本发明能够合理利用检索到的外部知识和视觉问答模型自身隐含的内部知识。
主权项:1.一种基于知识增强的视觉问答方法,其特征在于,应用于基于知识增强的视觉问答平台,包括:获取用户输入的图像和问题文本,对所述图像和问题文本进行处理,得到输入文本;将所述输入文本输入至预先构建的视觉问答模型的检索器,得到所述检索器输出的所述输入文本对应的多个相关外部知识;将所述多个相关外部知识分别与所述输入文本拼接,得到多个拼接后的输入文本,将所述多个拼接后的输入文本输入至所述视觉问答模型的答案生成器,得到所述答案生成器输出的每一拼接后的输入文本对应的答案文本,将所述输入文本输入至所述答案生成器,得到所述答案生成器输出的所述输入文本对应的答案文本;从所述每一拼接后的输入文本对应的答案文本和所述输入文本对应的答案文本中确定所述输入文本对应的最终的目标答案文本;其中,所述视觉问答模型是以样本输入文本为训练样本,以所述样本输入文本对应的答案文本标签为样本标签,对初始视觉问答模型的初始答案生成器和初始检索器进行联合训练得到的;所述视觉问答模型的确定过程,包括:获取样本图像和样本问题文本,对所述样本图像和样本问题文本进行处理,得到样本输入文本,确定所述样本输入文本对应的答案文本标签;将所述样本输入文本输入至所述初始视觉问答模型的初始检索器,得到所述初始检索器输出的所述样本输入文本对应的多个样本相关外部知识;将所述多个样本相关外部知识分别与所述样本输入文本拼接,得到多个拼接后的样本输入文本,将所述多个拼接后的样本输入文本输入至所述初始视觉问答模型的初始答案生成器,得到所述初始答案生成器输出的每一拼接后的样本输入文本对应的答案文本预测结果,将所述样本输入文本输入至所述初始答案生成器,得到所述初始答案生成器输出的所述样本输入文本对应的答案文本预测结果;从所述每一拼接后的样本输入文本对应的答案文本预测结果和所述样本输入文本对应的答案文本预测结果中确定所述样本输入文本对应的最终的目标答案文本;基于所述每一拼接后的样本输入文本对应的答案文本预测结果和所述样本输入文本对应的答案文本预测结果,以及所述样本输入文本对应的答案文本标签,计算优化目标函数值;基于所述优化目标函数值,训练所述初始视觉问答模型,对所述初始视觉问答模型进行参数优化迭代,得到所述视觉问答模型;其中,所述检索器的确定过程包括:基于所述样本输入文本对应的答案文本标签,将所述多个拼接后的样本输入文本对应的答案文本预测结果和所述样本输入文本对应的答案文本预测结果进行比较,得到比较结果;基于所述比较结果,得到监督训练信号,对所述初始检索器进行训练,在所述初始检索器训练完成后,得到所述检索器。
全文数据:
权利要求:
百度查询: 中国科学院自动化研究所 基于知识增强的视觉问答方法及平台
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。