买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门理工学院
摘要:本发明公开了一种基于几何基元空间感知的平面几何自动解题方法,S1将待求解的几何图示和几何题目利用解析器按预设的规则,解析成文本子句,并输入TransformerEncoder中编码;S2将几何图示图像通过卷机神经网络分成64个图示补丁特征并通过自注意力机制学习视觉模态内部特征;S3将这些模态特征输入到多模态双支路空间感知预训练语言模块中以学习跨模态全局特征和几何基元空间信息,并输入到双向GRU编码器中以执行融合编码;S4将混合编码中的文本编码送入点基元空间注意力模块中增强模型对几何基元的空间感知能力;S5将增强的混合编码由自限GRU解码器解码,并生成顺序求解程序。
主权项:1.基于几何基元空间感知的平面几何自动解题方法,其特征在于,包括以下步骤:步骤S1:将待求解的几何图示和几何题目利用解析器照题目中所提到的点、线、圆等几何基元作为基础,将题目解析成文本子句,所述文本子句包含结构子句、语义子句以及问题文本,并输入TransformerEncoder中学习文本模态内部特征;步骤S2:将几何图示图像通过卷机神经网络初步提取特征,并分成64个图示补丁,并通过自注意力机制学习视觉模态内部特征;步骤S3:将文本特征和图像特征合并输入到多模态双支路空间感知预训练语言模块中以获取跨模态全局特征和几何基元空间信息,并输入到双向GRU编码器中以执行融合编码;步骤S4:将混合编码中的文本编码部分取出,并输入点基元空间感知注意力模块中增强几何求解器模型对几何基元的空间感知能力;步骤S5:将增强的文本编码与混合编码中的图像编码拼接,并由自限GRU解码器解码,并生成顺序求解程序;在步骤S3中,多模态双支路空间感知预训练语言模块,用于获取视觉-语言的全局特征以及几何图示中几何基元的空间关系,包括:结构-语义预训练策略,用于学习视觉-语言的全局特征;双支路视觉-文本点对齐策略,采用模态内部和模态之间视觉-文本点匹配来实现文本中所出现的点基元符号与几何图示中所对应的图像补丁的对齐;具体来说,将几何图示的视觉编码与文本编码拼接并输入TransformerEncoder学习跨模态信息,并输出融合文本特征的视觉特征和融合了视觉特征的文本特征,然后采用基于对比学习的方式分别对模态内部和模态之间的视觉点和文本点进行匹配,基于对比学习的损失表示为: 其中表示模态内的对比损失,表示模态间的对比损失,和分别表示模态内部和模态间的文本点的特征,和分别表模态内部和模态间的示视觉点的特征,和分别表示模态内部和模态间文本特征中每一个单词的特征,j表示文本子句中单词的索引,表示线性投影函数,表示温度系数,T表示转置操作;通过双支路视觉-文本点对齐策略对齐视觉点和文本点,获得几何基元之间的空间分布关系,其损失表示为: ;多模态双支路空间感知预训练语言模块的总训练损失表示为: ,其中LSSP表示结构-语义预训练策略的训练损失,和表示超参数,然后将该多模态双支路空间感知预训练语言模块的输出输入到双向GRU编码器中以执行融合编码,获得上下文编码H。
全文数据:
权利要求:
百度查询: 厦门理工学院 基于几何基元空间感知的平面几何自动解题方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。