恭喜北京邮电大学胡燕祝获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京邮电大学申请的专利一种融合词汇编码与结构编码的标准内容文本摘要生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114925195B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210475184.1,技术领域涉及:G06F16/34;该发明授权一种融合词汇编码与结构编码的标准内容文本摘要生成方法是由胡燕祝;赵兴昊;张国开;庄育锋设计研发完成,并于2022-04-29向国家知识产权局提交的专利申请。
本一种融合词汇编码与结构编码的标准内容文本摘要生成方法在说明书摘要公布了:本发明公开了融合词汇编码与结构编码的标准内容文本摘要生成方法,步骤是:1确定标准内容的序列化向量;2经TextCNN模型处理进行词汇编码输出;3经TreeLSTM模型处理进行结构编码输出;4经Att‑LSTM模型处理进行解码;5确定损失函数。本发明相对于传统的编码能够提取到更精确的局部信息及句法结构信息,将文本中的核心词汇及重点语法在摘要表述中进一步加强,有效提高了标准内容文本摘要生成的准确度。
本发明授权一种融合词汇编码与结构编码的标准内容文本摘要生成方法在权利要求书中公布了:1.一种融合词汇编码与结构编码的标准内容文本摘要生成方法,其特征在于,包括以下步骤:步骤一:确定标准内容的序列化向量E:使用BERT模型预训练的词嵌入向量对输入文本的词进行向量表示;在文本中获取句子表示:W=[w1,w2,...,wN];在经过词嵌入层后,文本表示转换为:E=[e1,e2,...,eN],ei∈Rd;其中,E表示句子文本经预处理后的字符数组,ei表示文本中第i个词的序列化字符,d为词向量维度;步骤二:经TextCNN模型处理进行词汇编码输出r:通过TextCNN利用多个不同尺度的卷积核来提取句子中的关键信息,其输入向量序列为E=[e1,e2,...,eN];步骤三:经TreeLSTM模型处理进行结构编码输出h:运用基于LSTM优化的变体TreeLSTM模型来提取文本结构信息进行编码;步骤四:经Att-LSTM模型处理进行解码:解码器由基于混合注意力机制的LSTM神经网络搭建完成,根据编码器的文本表示向量r和隐层状态向量h依次输出每个预测摘要词汇的概率分布:pyi|y1,y2,...,yi-1=gyi-1,si,ci; g是用来预测生成词汇yi的概率分布的非线性变换;si表示解码器当前阶段的隐层输出向量;ci是注意力机制中定义的环境向量,计算方式见下文; ci是词汇编码器的文本表示向量r和结构编码器的隐层输出向量h与注意力权重系数的加权和;rj,hj分别是词汇编码器的文本表示向量和结构编码器的隐层输出向量;αij,βij分别是词汇编码器和结构编码器的注意力系数; qij=asi-1,rj;上式为词汇编码器对应的注意力系数αij的计算方法,其中,qij词汇编码器文本表示向量r和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数; qij=asi-1,hj;上式为结构编码器对应的注意力系数βij的计算方法,qi,j是结构编码器隐层状态向量h和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数;步骤五:确定损失函数H:使用最小化的交叉熵定义模型训练的损失函数: N为样本数量,l为目标摘要长度,表示生成的第i个摘要中第j个词汇;Hy的最小值使用梯度下降的方法进行优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。