买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州大学
摘要:本发明公开了一种融合双语言模型和句子检测的文本生成方法,该方法步骤包括:语言模型M1和语言模型M2同步扩展关键词前后的单词;语言模型M1正向预测下一字符得到新文本S1,语言模型M2反向预测下一个字符得到新文本S2,拼接新文本S1和新文本S2得到句子;句子满足输出条件则输出句子,否则作为新的输入;基于规约的句法分析方法对句子进行结构分析,句子能规约至文法起始符则符合句法规则;使用N‑Gram统计模型对符合句法规则的候选句子计算语言得分,若候选句子的语言得分超过设定阈值则作为最终文本输出。本发明可应用于句子构造、文章生成等创造性的文本生成任务中,有效解决以往生成技术中句子丰富度低、可读性差的问题。
主权项:1.一种融合双语言模型和句子检测的文本生成方法,其特征在于,包括下述步骤:获取输入关键词,语言模型M1和语言模型M2同步扩展关键词前后的单词;所述语言模型M1正向预测下一字符得到新文本S1,所述语言模型M2反向预测下一个字符得到新文本S2,拼接新文本S1和新文本S2得到句子;所述语言模型M1和语言模型M2同步扩展关键词前后的单词,具体步骤包括:输入关键词至训练好的语言模型M1、语言模型M2,语言模型M1、语言模型M2分别预测下一字符,得到下一字符的原始概率分布;采用top_k法选取字符及对应的预测概率,更新预测集合;通过训练集生成词性临值表,通过词性临值表获取更新后预测集合中对应词性组合的词性临值,将词性临值与原始概率相乘得到新的概率分布;将概率分布进行重分布,随机采样得到下一个字符nw以及下一个字符fw;将输入的关键词kw分别与随机采样得到的字符nw、字符fw拼接得到拼接序列kw+nw、拼接序列fw+kw;拼接语言模型M1和语言模型M2的预测结果,得到文本S=fw+kw+nw;所述通过训练集生成词性临值表,具体步骤包括:对于词性pos,词性sk的单词紧跟在词性pos单词后面的概率为: 其中,numk表示词性组合pos+sk在训练集出现的次数,n表示词性种类个数,最终生成大小为n*n的词性临值表Q;将概率分布进行重分布,具体计算公式为: 其中,πwk表示重分布后的概率值,temperature表示比例因子,wk表示更新预测集合中的候选词,pwk表示候选词对应的概率;判定句子是否满足输出条件,满足输出条件则输出句子,否则作为新的输入;基于规约的句法分析方法对句子进行结构分析,若句子能规约至文法起始符,则句子符合句法规则;使用N-Gram统计模型对符合句法规则的候选句子计算语言得分,若候选句子的语言得分超过设定阈值,则该候选句子作为最终文本输出。
全文数据:
权利要求:
百度查询: 广州大学 一种融合双语言模型和句子检测的文本生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。