首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融入先验知识的作文评语生成方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东大学

摘要:一种融入先验知识的作文评语生成方法及装置,属于自然语言处理的技术领域。一种融入先验知识的作文评语生成方法在作文评语生成过程中,融合了两种知识,来共同生成高质量的作文评语,分别是:内部知识和先验知识;所述内部知识是指通过对作文内容的理解和概括得到的作文语义知识,所述先验知识则是指学习到的与作文标签相关的常频词汇知识。基于以上方法生成的作文评语内容不仅包含作文核心内容,还包含了对作文各个角度的评价,使得评语内容丰富且具备评价性质。

主权项:1.一种融入先验知识的作文评语生成方法,其特征在于,包括:S1:针对评语词汇的先验知识学习,得到不同作文标签下的评语常频词汇,以构建先验知识库;S2:输入作文文本,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识;S3:输入内部知识,经过编码器,得到内部知识的语义向量;将作文标签输入外部知识库,得到对应的先验知识,将先验知识中的词汇拼接起来输入所述编码器,得到先验知识的语义向量;S4:解码器根据当前解码状态,通过注意力模块和互注意力模块分别得到当前解码状态对内部知识和先验知识的注意力分布,接着通过语义融合模块将内部知识和先验知识融合到解码过程中,以输出生成作文评语;在S4中,所述解码器为基于单向LSTM解码器;具体步骤如下:S41:在第个时间步,基于单向LSTM解码器的输入是第时刻生成的词元,记为Yt,将其输入词嵌入层,得到编码后的输入向量yt’: (4);在公式(4)中,表示词嵌入层;将第步输入的词元表示输入向量yt’以及上一步解码器的状态输入LSTM,其中包含了基于单向LSTM解码器在上一个时间步中记忆细胞存储的信息和隐藏状态,基于单向LSTM解码器借助和,并结合当前的输入向量yt’,得到第步的输出和第步的隐藏状态和细胞状态: (5);在公式(5)中,,表示第步的解码器状态;S42:根据第步的解码器状态和编码器输出计算对中每个词元的注意力分布,其中作为注意力机制中的查询Q,作为注意力机制中的键K和值V的来源;计算第步解码器的状态和解码器的输出之间的注意力分布: (6); (7);在公式(6)、公式(7)中,表示中第i个词元对应的注意力分数;表示对中个词元对应的注意力分数的整体表示;表示Wα转置后的向量;表示中第i个词元的表示向量;、、Wα和均是可训练的参数,注意力分布为在作文摘要文本词元上的一个概率分布;S43:根据注意力分布和编码器的输出计算加权和,得到作文内容的上下文向量: (8);在公式(8)中,表示中第i个词元在第时刻的均一化后的注意力分数;S44:对于得到先验知识编码后的语义向量,分别计算上下文向量对中每个词元的注意力分布以及第步解码器的状态对中每个词元的注意力分布: (9); (10); (11); (12);在公式(9)、公式(10)、公式(11)和公式(12)中,表示第步解码器的状态对中第i个词元的注意力分数;表示中个词元对应的注意力分数的整体表示;表示上下文向量对中第i个词元的注意力分数;表示对中个词元对应的注意力分数的整体表示;表示中第i个词元的表示向量; 、、、、、、和均是可学习的参数,是转置后的表示向量,表示对的注意力分布,表示对的注意力分布;在计算中,作为注意力机制中的查询Q,作为注意力机制中的键K和值V的来源;在计算中,作为注意力机制中的查询Q,作为注意力机制中的键K和值V的来源;S45:采用互注意力模块对和两个注意力分布进行融合,采用互注意力模块对和两个注意力分布进行融合的具体步骤包括:S451:将和在每一维上拼接得到一个注意力分布矩阵;S452:对注意力分布矩阵M进行行归一化,表示先验知识中的第i个词元对和的注意力分数,得到先验知识对和的单向注意力矩阵: (13); (14);S453:将单向注意力矩阵在列方向上求均值,得到先验知识对和的注意力分布和的权重系数: (15);在公式(15)中,;表示对应的权重;表示对应的权重;S454:计算和合并后的注意力分布: (16);S455:计算先验知识的上下文向量表示: (17);在公式(17)中,表示注意力分布中第i个均一化后的注意力分数;S46:在S4中还包括语义融合模块,所述语义融合模块具体步骤如下:S461:根据基于单向LSTM解码器最后一个单元的输出、以及作文内容的上下文向量,计算生成的字表分布: (18);在公式(18)中,、均是可学习的参数;S462:分别从内部知识和先验知识中复制相关词汇加入到生成的文本中,具体步骤如下:根据作文内容的上下文向量、第步解码器的状态、先验知识的上下文向量以及第步输入的词元表示输入向量yt’,计算生成的概率: (19);在公式(19)中,表示sigmoid函数;、、、和均是可学习的参数;然后,根据得到的作文内容上下文向量和先验知识上下文向量,计算从先验知识中复制词元的概率: (20);在公式(20)中,表示sigmoid函数;、和均是可学习的参数;最终,根据生成的字表分布和对原文每个字的注意力分布以及先验知识中每个字的注意力分布加权得到生成字w的概率分布: (21);在公式(21)中,表示注意力分布中下标为i的字对应的均一化后的注意力分数;表示注意力分布中下标为i的字对应的均一化后的注意力分数;计算解码器的损失函数,以优化模型: (22);在公式(22)中,表示第步真实评语的词元;表示评语的长度;表示第步解码器最终生成该词元的概率,以得到融入先验知识的作文评语生成模型。

全文数据:

权利要求:

百度查询: 山东大学 融入先验知识的作文评语生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。