首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本复述改写系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海交通大学

摘要:一种文本复述改写系统,包括:复述生成模块、相似度检测模块、多样性筛选模块和通顺度检测模块,复述生成模块,基于大规模预训练语言模型采用特定任务的训练集进行生成模型的训练,并根据源语句,进行模型预测处理并输出生成句集合至相似度检测模块,相似度检测模块采用余弦相似度计算生成句集合中的生成句与源语句的相似度,并通过阈值判定其是否为源语句的相似句并输出相似性测筛后的生成句集合至多样性筛选模块,多样性筛选模块进一步筛选生成的短语和源语句相比重叠程度最小的生成句并输出至通顺度检测模块,通顺度检测模块采用大量语料训练通顺度检测模型,通过计算句子困惑度检测生成的句子的通顺程度,得到生成句。

主权项:1.一种文本复述改写系统,其特征在于,包括:复述生成模块、相似度检测模块、多样性筛选模块和通顺度检测模块,其中:复述生成模块,基于大规模预训练语言模型采用特定任务的训练集进行生成模型的训练,并根据源语句,进行模型预测处理并输出生成句集合至相似度检测模块,相似度检测模块采用余弦相似度计算生成句集合中的生成句与源语句的相似度,并通过阈值判定其是否为源语句的相似句并输出相似性测筛后的生成句集合至多样性筛选模块,多样性筛选模块进一步筛选生成的短语和源语句相比重叠程度最小的生成句并输出至通顺度检测模块,通顺度检测模块采用大量语料训练通顺度检测模型,通过计算句子困惑度检测生成的句子的通顺程度,得到最终生成句;所述的复述生成模块包括:模型训练单元和句子生成单元,其中:模型训练单元对基于大规模预训练语言模型的语句生成模型进行训练,句子生成单元将源语句输入训练后的语句生成模型,采用基于集束的随机采样进行相似句生成并输出生成句集合至相似度检测模块;所述的基于集束的随机采样是指:每一步只从概率最高的topk个词中采样,并按概率执行随机采样函数,最终返回集合元素总和最大为n的解码序列集合,其中:topk为每个时间步按概率从高到低排序所采样的词数,n为最终返回解码序列集合元素总和的最大个数;所述的多样性筛选模块包括:多样性筛选单元,其中:多样性筛选单元根据相似度检测模块获得的相似句集合,将源语句与相似句进行词级上的重叠性和语序上的差异性进行综合评价,获取一个多样性评分,按一定的分值获得满足一定多样性的相似句;所述的多样性筛选模块采用基于n-gram原理的rouge值,计算源句-同义句对的rouge-1、rouge-2、rouge-n,然后用rankscore=arouge-1+brouge-2+crouge-3的方式计算一个排序分数,对生成的同义句集合进行排序,其中:a、b、c为超参数。

全文数据:

权利要求:

百度查询: 上海交通大学 文本复述改写系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。