一种基于BERT和外部知识的生成式自动文摘方法

导航：龙图腾网> 最新专利技术> 一种基于BERT和外部知识的生成式自动文摘方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山西中汇数智科技有限公司

摘要：本发明属于自然语言处理领域，具体涉及一种基于BERT和外部知识的生成式自动文摘方法，包括获取文档数据，并通过TextRank模块获取文档数据对应的关键词；将文档数据输入到BERT模型中进行编码，得到编码后的文档信息；通过关键词从外部知识模块检索外部知识，通过门控机制将外部知识与文档信息进行融合；将融合后的信息输入到Transformer模型进行解码，生成摘要；本发明使用BERT模型对文档数据编码捕捉更多的上下文信息和内部信息，提高编码的质量，使用关键词获取外部知识与文档信息进行融合，用Transformer模型丰富生成文摘的语义，提高生成摘要的流畅性和完整性，生成高质量的摘要。

主权项：1.一种基于BERT和外部知识的生成式自动文摘方法，其特征在于，获取文档数据并进行预处理；将预处理后的文档数据输入到训练好的生成式自动文摘模型中生成文档对应的摘要；生成式自动文摘模型包括TextRank模块、BERT模块、外部知识模块和Transformer模型；生成式自动文摘模型的训练过程包括：S1.获取原始文摘数据，对原始文摘数据进行预处理；对原始文摘数据进行预处理的过程为：S11.对原始文摘数据进行分词处理，并使用BERT的词表将分词处理后的原始文摘数据转化为id文件；S12.设定序列长度最大值，根据序列长度最大值对id文件进行填充padding；S2.将预处理后的原始文摘数据送入TextRank模块获取关键词，同时将预处理后的原始文摘数据输入到BERT模块中进行编码，得到编码数据；获取编码数据的过程包括：S21.对预处理后的原始文摘数据进行标记，得到标记文档，标记文档表示为：S＝[CLS]，D11，...，D1m，[SEP]，...Dij...，[CLS]，Dn1，...，Dnx，[SEP]；S22.对标记文档进行embedding，获取标记文档的文档词嵌入，文档词嵌入表示为：h＝BERT.embeddingS；S23.将文档词嵌入输入到BERT模型中获取编码数据，编码数据表示为：Td＝BERTh；其中，D表示预处理后的原始文摘数据，S表示标记文档，Di表示预处理后的原始文摘数据中的第i句话，Dij表示预处理后的原始文摘数据中第i句话的第j个单词，[CLS]和[SEP]为每句话的分隔符；h表示文档词嵌入，BERT.embeddin·表示embedding操作；BERT·表示BERT模型，Td＝T[CLS]，T11，...，T1m，T[SEP]，...Tij...，T[CLS]，Tn1，...，Tnx，T[SEP]表示编码数据，T[SEP]和T[CLS]表示编码数据中每句话的分隔符，Tij表示编码数据中第i句话的第j个单词；BERT模型中采用多头注意力机制，其表示为： headi＝AttentionQWiQ，KWiK，VWiV；MultHeadQ，K，V＝Concathead1，...，headhWO；其中，Attention·表示注意力机制；Q表示查询向量，K表示键向量、V表示值向量；softmax·表示归一化函数，T为矩阵转置的标识，dk表示键向量的维度，headi为第h次投影得到的Attention值，i为投影的次数，WiQ为Q向量训练权重矩阵，WiK为K向量训练权重矩阵，WiV为V向量训练权重矩阵，MultHead·表示多头注意力机制的最终输出，WO为附加的权重矩阵，Concat·为向量拼接；S3.根据关键词从外部知识模块中检索相关的知识信息，将知识信息与编码数据通过门控机制进行融合；步骤S3包括：S31.获取关键词对应的关键词词嵌入，根据关键词词嵌入在外部知识模块检索相关的外部知识；S32.通过线性运算融合外部知识与关键词得到知识向量；S33.通过门控机制筛选知识向量得到知识信息，将知识信息与编码数据进行融合得到融合数据T′d；S4.将融合后的数据输入到Transformer模型进行解码，得到解码数据，将解码数据输入全连接层，将全连接层的输出结果输入softmax层生成摘要；设置迭代初始次数；生成摘要的公式表示为：out＝TransformerT′d；Pvocab＝softmaxg[out]；其中，Transformer·代表Transformer解码器，T′d代表融合数据，g·代表全连接层，out表示Transformer解码器的输出结果，Pvocab表示词表中的词汇成为摘要的概率；S5.采用交叉熵损失函数训练生成式自动文摘模型，采用Adam算法优化生成式自动文摘模型，即调整BERT模块和Transformer模型的参数；判断交叉熵损失函数计算结果是否达到最小值，若是，则结束训练，否则进入步骤S6；S6.判断迭代次数是否达到最大迭代次数，若达到，则完成生成式自动文摘模型的训练，否则返回步骤S5，且迭代次数加1。

全文数据：

权利要求：

百度查询：山西中汇数智科技有限公司一种基于BERT和外部知识的生成式自动文摘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种并联电容器监测方法、系统、设备和介质

下一篇：一种基于多维特征融合和傅里叶变换的明文检测报警系统

相关技术

一种并联电容器监测方法、系统、设备和介质

一种基于多维特征融合和傅里叶变换的明文检测报警系统

一种CrMoNbV难熔高熵合金及其制备方法和应用

防水USB插座

内窥镜管路的堵塞判定装置及堵塞判定方法

一种柔性多线圈电感式压力传感检测系统及制作方法

含氟共聚物

一种多方向出风控制方法及除湿机

一种车辆充电时长确定方法、系统、介质及产品

一种Cu、MoNbCu、MTDCuMo用无氟蚀刻液及其制备方法

用于将设备附接到表面的装置和将装置附接到表面的方法

音频参数优化方法及相关于音频参数的运算装置

式相关技术

穿线式缝合装置_杭州德晋医疗科技有限公司_202110432552.X

手持式风扇_深圳市火星严选科技有限公司_202420355440.8

液体排出式抹刀_株式会社三和_202310819834.4

阶梯式浇口_立讯智造科技(常熟)有限公司_202420095423.5

步入式恒温房_东莞鹏锐试验设备有限公司_202323464217.1

便携式炉子_郑真厚_201980093065.6

按压式香烟管_浙江正庄实业有限公司_201811474011.8

便携式接头_江山市明宇塑业科技有限公司_202420693306.9

挂式空调_海信空调有限公司_202323635644.1

锁闭式蝶阀_北方阀门集团有限公司_202420479397.6

生成相关技术

HTML报告模板的生成及HTML报告的离线生成方法_博智安全科技股份有限公司_202410967688.4

气溶胶生成装置及气溶胶生成过程中的温度控制方法_深圳市康柏特科技开发有限公司_202110885142.0

一种基于生成对抗网络生成图像的方法_南昌大学第一附属医院_202411210605.3

基于生成对抗网络的地表图像生成方法及系统_中国科学院计算技术研究所_202210249374.1

基于最优传输和实例驱动扩散生成模型的图像生成方法_上海浙江大学高等研究院_202411150708.5

基于大语言生成模型的仿真网络数据包生成方法及系统_上海天旦网络科技发展有限公司_202411170718.5

代码生成方法及装置_中国工商银行股份有限公司_202011318391.3

同步音频和文本生成_斯纳普公司_202180070331.0

预埋件生成方法及装置_三一筑工科技股份有限公司_202210726281.3

数据指纹生成方法及装置_湖南亚信软件有限公司_202410996451.9

知识相关技术

一种基于知识表示和动态提示的多模态模型知识更新方法_山东浪潮科学研究院有限公司_202411116647.0

一种杠杆原理知识演示教具_上海励晶科技发展有限公司_202323418976.4

一种时序知识图谱对齐方法_中国人民解放军国防科技大学_202411096243.X

基于知识图谱和深度学习的跨模态数据融合方法和系统_中南大学_202411394834.5

一种基于知识图谱的工艺设计资源模型构建方法_天津大学_202111500782.1

一种基于知识图谱的信息检索方法_中国人民解放军国防科技大学_202210223535.X

一种基于知识迁移的多领域情感分类方法及系统_之江实验室_202411084396.2

一种软件和源代码知识产权保护的方法_云南昆钢电子信息科技有限公司_202410808521.3

知识超图的生成方法、装置、终端设备及存储介质_中国长城科技集团股份有限公司_202111491767.5

基于知识图谱及RFID技术的胶带生产管理系统及方法_福建友谊胶粘带集团有限公司_202311223362.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于BERT和外部知识的生成式自动文摘方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务