买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州启辰电子科技有限公司;华南理工大学
摘要:本发明公开了一种基于跨度信息和局部注意力的试卷结构解析方法,包括以下步骤:获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;首先通过大规模预训练模型提取试卷每一行的语义特征,并利用建模行上下文的信息;之后利用基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。
主权项:1.一种基于跨度信息和局部注意力的试卷结构解析方法,其特征在于,所述试卷结构解析包括以下步骤:S1、获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;S2、首先通过大规模预训练模型提取试卷每一行的语义特征,并利用双向长短期记忆网络建模行上下文的信息;S3、利用基于跨度信息的监督注意力以及设计了一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其类型;S4、分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果;所述步骤S1中预处理电子化试卷为分行结构性文本的具体计算过程如下:S1.1、对于试题中的文本信息,首先利用预训练模型BERT的分词器对文本进行分词,并且过滤掉其中的停用词;S1.2、对于试题中非文本的多元数据,包括公式、图片、表格,根据这些数据的特性设计了一种非文本数据的处理方法,具体流程如下:首先对这些数据进行清洗,得到噪声较少的数据;考虑到这些数据信息对于解析试卷结构并没有作用,所以基于正则表达式替换的方法将他们替换成统一的特殊符号作为代替;S1.3、保留电子试卷的分行结构得到最终试卷列表如下: ;其中代表第行经预处理后的信息,代表电子试卷中所包含的行数;所述步骤S2利用预训练模型和双向长短期记忆网络得到包含上下文信息的行特征表示的具体计算过程如下:S2.1、给定经过预处理后的试卷D,将每一行输入到预训练模型中获得每一行的语义向量表示: ;其中,之后利用长短期记忆网络来建模向量序列的上下文信息,其具体计算过程如下: ;其中,是隐层状态的维度,是时间步的输入数据,,,分别是长短期记忆网络的输入门,遗忘门和输出门,是当前加入的信息,是记忆单元的信息,、是非线性激活函数,是逐元素的乘法,W,U和b是可训练的参数;为了建模试卷结构的双向特性,试卷序列向量分别从前后两个方向输入到长短期记忆网络中,并且将两个方向的向量直接拼接起来作为最终的试卷隐层表示: ; ; ;其中,分别代表前向和后向输入到长短期记忆网络中得到的隐层表示,代表向量拼接操作,所述步骤S3中融合了监督的局部注意力以及基于跨度分类的辅助任务大题分割过程如下:S3.1、给定试卷的隐层表示,构建,计算出可微的左右边界掩码: ;其中,分别代表左右边界掩码,是可训练参数,用来确保生成的边界满足条件,然后计算出最终的局部范围掩码矩阵: ;其中是为全1的上三角矩阵,然后将自注意力机制与得到的局部范围掩码矩阵结合起来,使模型专注于目标位置周围语义相关的句子并消除噪声聚合: ;其中是可训练参数;接着引入分割信号来指导动态局部注意力的学习以捕捉连贯语义,具体来说,使用二元交叉熵损失来描述注意力矩阵和分段信号之间的差异: ;其中是sigmoid激活函数,代表行与行处于一个分段内;S3.2、此外,由于跨度内句子的明显标签一致性,引入了一个额外的辅助任务,称为基于跨度的分类: ; ;其中是跨度级别的输出概率,表示可学习的位置编码,是交叉熵损失函数,表示第行和第行是某一分段的开始和结束;S3.3、最终根据如下损失函数来训练大题解析模型: ;其中是用于平衡和损失强度的超参数,所指导的主分类器可以给出每个行的一个类别标签,经过同类别行合并后得到最终的大题解析结果: ;其中M代表试卷D中含有不同类别的分段个数,每一个分段中包含一个或多个行,代表第i个分段的类别标签;所述步骤S4中对于得到的大题进行小题分割的具体过程如下:S4.1给定一个大题分段,其中包含一个或多个行,通过使用二元交叉熵损失函数训练一个小题分割的分类器,来得到最终的小题分割结果: ;其中,1代表第k行是一个分割行。
全文数据:
权利要求:
百度查询: 广州启辰电子科技有限公司 华南理工大学 一种基于跨度信息和局部注意力的试卷结构解析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。