首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于数据增强的多模型对话文本摘要生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京印刷学院

摘要:本发明公布了一种基于数据增强的多模型对话文本摘要生成方法,通过将原始对话文本进行主题分割、特征融合、掩蔽生成的方式生成新的对话文本,再使用教师模型对新的对话生成伪摘要的方式以增强数据;通过自学习方法不断改进性能,生成丰富和多样化的对话文本,并通过反复迭代优化,得到高质量的用于生成对话文本摘要的对话生成模型,提升对话文本摘要生成模型的鲁棒性。

主权项:1.一种基于数据增强的多模型对话文本摘要生成方法,其特征在于,将原始对话文本通过进行主题分割、特征融合、掩蔽生成的方式生成新的对话文本,再使用教师模型对新的对话生成伪摘要的方式以增强数据;通过自学习方法不断改进性能,生成丰富和多样化的对话文本,并通过反复迭代优化,最终得到高质量的用于生成对话文本摘要的对话生成模型;包括如下步骤:1设计主题分割算法,针对对话文本数据进行主题分割和掩蔽操作,并生成掩蔽后的文本;包括:11对基于词汇链和词频的文本分割算法进行改进,设计具有时间序列分析和自适应阈值的对话文本主题分割算法,对输入的对话文本进行分割,将对话内容划分为不同的主题段落;包括:在计算相似度矩阵时,在基于词汇链和词频基础上加入句子的时序因素,定义权重函数ωd为基于时间距离的权重;结合时间因素加权后的句子相似度simωsi,sj表示为:simωsi,sj=ωd·simsi,sj其中,simsi,sj表示句子si和句子sj使用余弦相似度计算的未加权语义相似度;在判定文本段落边界时采用自适应阈值机制,通过动态调整文本段落边界检测阈值,确定边界位置;具体是使用文本统计特征作为文本类型的确认依据动态调整边界检测阈值,包含相似度的平均值和标准差;通过比较滑动窗口内的累积相似度值与自适应阈值T,确定文本段落边界位置,由此实现对对话文本进行分割;12通过比较文本之间的词嵌入计算每个主题段落与原文本的相似度,选择相似度最高的主题部分进行掩蔽操作,并生成掩蔽后的文本;2在对话摘要的数据增强过程中,进行多模型文本特征融合掩蔽生成,生成新的对话文本;包括:21通过多种生成模型对掩蔽文本进行特征表示提取;22将不同模型生成的特征向量经过归一化处理,再进行特征融合,生成新的对话文本;3进行自学习训练;包括:首先在现有对话文本数据集上训练初始教师模型,得到训练好的初始教师模型;然后利用训练好的模型,对步骤2得到的掩蔽对话文本生成伪摘要,将伪摘要作为增强数据进一步训练教师模型;通过自学习训练的迭代优化,由此获得高效的对话摘要生成模型。

全文数据:

权利要求:

百度查询: 北京印刷学院 一种基于数据增强的多模型对话文本摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。