首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于预训练Transformer语言模型的英文句子简化算法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:扬州大学

摘要:本发明公开了一种基于预训练Transformer语言模型的英文句子简化算法,按如下步骤进行:步骤1、利用公开的维基百科语料,统计词语频率;步骤2、利用公开的预训练的词嵌入模型,获取词语的向量化表示;步骤3、对需要简化的句子进行预处理,获取内容词;步骤4、对句子中的内容词,利用公开的预训练Transformer语言模型Bert,获取该词的候选替代词语集合;步骤5、利用多个特征,对每个内容词的候选替代词语集合进行排序;步骤6、比较最高排序的候选词和原有内容词的词语频率,确定最终的替代词;步骤7、依次按照步骤4到6,处理句子中其他内容词,获取最终的简化句子,本发明在没有利用任何标注的并行语料,充分利用预训练Transformer语言模型,有效提高了英文句子简化的准确性。

主权项:1.一种基于预训练Transformer语言模型的英文句子简化算法的方法,其特征在于,按如下步骤进行:步骤1、利用公开的英文维基百科语料库D,统计每个词语w的频率fw,fw表示词语w在D中的出现次数;步骤2、获取公开的采用词向量模型fastText进行预训练的词嵌入模型;利用该词嵌入模型,获取词语w的向量表示vw;步骤3、假设需要简化的句子为s,先去除句子s中的停用词,再利用分词工具对s进行分词和词性标注,获取内容词,其中内容词包括名词、动词、形容词和副词,集合{w1,…,wi,…,wn};定于i的初值为1;步骤4、利用公开的预训练Transformer语言模型Bert,获取句子s中内容词wi,其中,1≤i≤n的候选替代词集合CSi;步骤5、采用多个特征,对CSi中的候选词进行排序;通过对多个排序结果求平均值,选择排名最靠前的候选词ci;步骤6、如果候选词ci的频率fci大于原有内容词wi的频率fwi,则选择候选词ci作为替代词;否则,仍然保留原有内容词w;步骤7、令i=i+1,依次执行步骤4到步骤6;当句子s中所有内容词都处理完毕,替换掉原有的内容词,就获得了句子s的简化句子。

全文数据:

权利要求:

百度查询: 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。