首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于BERT和外部知识的生成式自动文摘方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山西中汇数智科技有限公司

摘要:本发明属于自然语言处理领域,具体涉及一种基于BERT和外部知识的生成式自动文摘方法,包括获取文档数据,并通过TextRank模块获取文档数据对应的关键词;将文档数据输入到BERT模型中进行编码,得到编码后的文档信息;通过关键词从外部知识模块检索外部知识,通过门控机制将外部知识与文档信息进行融合;将融合后的信息输入到Transformer模型进行解码,生成摘要;本发明使用BERT模型对文档数据编码捕捉更多的上下文信息和内部信息,提高编码的质量,使用关键词获取外部知识与文档信息进行融合,用Transformer模型丰富生成文摘的语义,提高生成摘要的流畅性和完整性,生成高质量的摘要。

主权项:1.一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,获取文档数据并进行预处理;将预处理后的文档数据输入到训练好的生成式自动文摘模型中生成文档对应的摘要;生成式自动文摘模型包括TextRank模块、BERT模块、外部知识模块和Transformer模型;生成式自动文摘模型的训练过程包括:S1.获取原始文摘数据,对原始文摘数据进行预处理;对原始文摘数据进行预处理的过程为:S11.对原始文摘数据进行分词处理,并使用BERT的词表将分词处理后的原始文摘数据转化为id文件;S12.设定序列长度最大值,根据序列长度最大值对id文件进行填充padding;S2.将预处理后的原始文摘数据送入TextRank模块获取关键词,同时将预处理后的原始文摘数据输入到BERT模块中进行编码,得到编码数据;获取编码数据的过程包括:S21.对预处理后的原始文摘数据进行标记,得到标记文档,标记文档表示为:S=[CLS],D11,...,D1m,[SEP],...Dij...,[CLS],Dn1,...,Dnx,[SEP];S22.对标记文档进行embedding,获取标记文档的文档词嵌入,文档词嵌入表示为:h=BERT.embeddingS;S23.将文档词嵌入输入到BERT模型中获取编码数据,编码数据表示为:Td=BERTh;其中,D表示预处理后的原始文摘数据,S表示标记文档,Di表示预处理后的原始文摘数据中的第i句话,Dij表示预处理后的原始文摘数据中第i句话的第j个单词,[CLS]和[SEP]为每句话的分隔符;h表示文档词嵌入,BERT.embeddin·表示embedding操作;BERT·表示BERT模型,Td=T[CLS],T11,...,T1m,T[SEP],...Tij...,T[CLS],Tn1,...,Tnx,T[SEP]表示编码数据,T[SEP]和T[CLS]表示编码数据中每句话的分隔符,Tij表示编码数据中第i句话的第j个单词;BERT模型中采用多头注意力机制,其表示为: headi=AttentionQWiQ,KWiK,VWiV;MultHeadQ,K,V=Concathead1,...,headhWO;其中,Attention·表示注意力机制;Q表示查询向量,K表示键向量、V表示值向量;softmax·表示归一化函数,T为矩阵转置的标识,dk表示键向量的维度,headi为第h次投影得到的Attention值,i为投影的次数,WiQ为Q向量训练权重矩阵,WiK为K向量训练权重矩阵,WiV为V向量训练权重矩阵,MultHead·表示多头注意力机制的最终输出,WO为附加的权重矩阵,Concat·为向量拼接;S3.根据关键词从外部知识模块中检索相关的知识信息,将知识信息与编码数据通过门控机制进行融合;步骤S3包括:S31.获取关键词对应的关键词词嵌入,根据关键词词嵌入在外部知识模块检索相关的外部知识;S32.通过线性运算融合外部知识与关键词得到知识向量;S33.通过门控机制筛选知识向量得到知识信息,将知识信息与编码数据进行融合得到融合数据T′d;S4.将融合后的数据输入到Transformer模型进行解码,得到解码数据,将解码数据输入全连接层,将全连接层的输出结果输入softmax层生成摘要;设置迭代初始次数;生成摘要的公式表示为:out=TransformerT′d;Pvocab=softmaxg[out];其中,Transformer·代表Transformer解码器,T′d代表融合数据,g·代表全连接层,out表示Transformer解码器的输出结果,Pvocab表示词表中的词汇成为摘要的概率;S5.采用交叉熵损失函数训练生成式自动文摘模型,采用Adam算法优化生成式自动文摘模型,即调整BERT模块和Transformer模型的参数;判断交叉熵损失函数计算结果是否达到最小值,若是,则结束训练,否则进入步骤S6;S6.判断迭代次数是否达到最大迭代次数,若达到,则完成生成式自动文摘模型的训练,否则返回步骤S5,且迭代次数加1。

全文数据:

权利要求:

百度查询: 山西中汇数智科技有限公司 一种基于BERT和外部知识的生成式自动文摘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。