一种基于数据增强的多模型对话文本摘要生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京印刷学院

摘要：本发明公布了一种基于数据增强的多模型对话文本摘要生成方法，通过将原始对话文本进行主题分割、特征融合、掩蔽生成的方式生成新的对话文本，再使用教师模型对新的对话生成伪摘要的方式以增强数据；通过自学习方法不断改进性能，生成丰富和多样化的对话文本，并通过反复迭代优化，得到高质量的用于生成对话文本摘要的对话生成模型，提升对话文本摘要生成模型的鲁棒性。

主权项：1.一种基于数据增强的多模型对话文本摘要生成方法，其特征在于，将原始对话文本通过进行主题分割、特征融合、掩蔽生成的方式生成新的对话文本，再使用教师模型对新的对话生成伪摘要的方式以增强数据；通过自学习方法不断改进性能，生成丰富和多样化的对话文本，并通过反复迭代优化，最终得到高质量的用于生成对话文本摘要的对话生成模型；包括如下步骤：1设计主题分割算法，针对对话文本数据进行主题分割和掩蔽操作，并生成掩蔽后的文本；包括：11对基于词汇链和词频的文本分割算法进行改进，设计具有时间序列分析和自适应阈值的对话文本主题分割算法，对输入的对话文本进行分割，将对话内容划分为不同的主题段落；包括：在计算相似度矩阵时，在基于词汇链和词频基础上加入句子的时序因素，定义权重函数ωd为基于时间距离的权重；结合时间因素加权后的句子相似度simωsi,sj表示为：simωsi,sj＝ωd·simsi,sj其中，simsi,sj表示句子si和句子sj使用余弦相似度计算的未加权语义相似度；在判定文本段落边界时采用自适应阈值机制，通过动态调整文本段落边界检测阈值，确定边界位置；具体是使用文本统计特征作为文本类型的确认依据动态调整边界检测阈值，包含相似度的平均值和标准差；通过比较滑动窗口内的累积相似度值与自适应阈值T，确定文本段落边界位置，由此实现对对话文本进行分割；12通过比较文本之间的词嵌入计算每个主题段落与原文本的相似度，选择相似度最高的主题部分进行掩蔽操作，并生成掩蔽后的文本；2在对话摘要的数据增强过程中，进行多模型文本特征融合掩蔽生成，生成新的对话文本；包括：21通过多种生成模型对掩蔽文本进行特征表示提取；22将不同模型生成的特征向量经过归一化处理，再进行特征融合，生成新的对话文本；3进行自学习训练；包括：首先在现有对话文本数据集上训练初始教师模型，得到训练好的初始教师模型；然后利用训练好的模型，对步骤2得到的掩蔽对话文本生成伪摘要，将伪摘要作为增强数据进一步训练教师模型；通过自学习训练的迭代优化，由此获得高效的对话摘要生成模型。

全文数据：

权利要求：

百度查询：北京印刷学院一种基于数据增强的多模型对话文本摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种结构完整的木质素-碳水化合物复合体的分离方法

下一篇：核电厂凝汽器真空系统水封液位计的优化方法

相关技术

一种结构完整的木质素-碳水化合物复合体的分离方法

核电厂凝汽器真空系统水封液位计的优化方法

拖拉机驱动轮滑转状态识别及滑转率测量控制方法和系统

一种电子白板的智能回溯方法、装置、设备及存储介质

一种基于深度学习模型的电子合同管理方法及系统

一种微沟槽双栅mosfet器件及制备方法

带有尾电流源校准电路的CML驱动电路及尾电流源校准方法

一种卫星导航受控无线场模拟设计方法

一种基于相变材料与MIM结构的长波红外光吸收器

一种高效不锈钢拉丝设备及拉丝工艺

基于机器视觉的智能睡眠床架装配工艺优化方法及系统

一种基于FFmpeg插件实现快速视频转码的方法及系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于数据增强的多模型对话文本摘要生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务