恭喜南京优慧信安科技有限公司杨鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京优慧信安科技有限公司申请的专利一种基于子主题建模的关键词生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115017260B 。
龙图腾网通过国家知识产权局官网在2025-04-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210516053.3,技术领域涉及:G06F16/334;该发明授权一种基于子主题建模的关键词生成方法是由杨鹏;戈妍妍;张朋辉设计研发完成,并于2022-05-12向国家知识产权局提交的专利申请。
本一种基于子主题建模的关键词生成方法在说明书摘要公布了:本发明公开了一种基于子主题建模的关键词生成方法,所述方法包括以下步骤:步骤1:新闻文本数据采集;步骤2:数据预处理;步骤3:模型训练;步骤4:模型测试与关键词文本生成。本发明能够改善现有关键词生成方法中依赖文本完整语义作为基本解码单元,导致模型无法有效建模“文本‑关键词”一对多映射关系,进而影响生成的关键词多样性的问题。通过子主题作为解码单元提高生成关键词的质量。
本发明授权一种基于子主题建模的关键词生成方法在权利要求书中公布了:1.一种基于子主题建模的关键词生成方法,其特征在于,所述方法包括以下步骤:步骤1:新闻文本数据采集;步骤2:数据预处理;步骤3:模型训练;步骤4:模型测试与关键词生成;其中,步骤3:模型训练,在输入层对文本进行分句,再将文本和关键词进行分词处理,并利用Word2Vec进行向量初始化,生成词嵌入向量,在编码层,首先利用Bi-GRU编码器对文本句子和关键词进行编码,获得单词上下文语义信息,然后利用池化得到句子的向量表示和关键词的表示,接着利用多头自注意力机制获得句子在整个文本语境下的特征向量,在子主题发现层,获得文本的若干子主题,并通过采样获得子主题的向量表示,最后在关键词生成层,应用子主题感知的多解码器组,利用子主题为解码单元的模式,并行生成目标关键词集合,最后利用训练损失函数训练所述模型;步骤3,模型训练,具体如下,利用步骤2处理后的数据集对基于自主体建模的关键词生成模型进行训练,该步骤分为以下子步骤:子步骤3-1,构建输入层,首先选择训练集中出现频率靠前的50k单词构建词汇表,若该词在Word2Vec中存在,则选择Word2Vec中向量作为其训练初始化向量,否则将其向量随机初始化,然后将输入文本单词序列根据词汇表映射为索引序列,并转化为词向量表示,子步骤3-2,构建文本编码层,采用一个双层Bi-GRU循环神经网络编码器分别对原文词向量序列Esi和参考词的词向量序列Eyj进行语义编码提取,计算上下文语义表示的公式如1和2: 其中,Esi表示原文第i个句子词向量矩阵,Eyj表示第j个短语的词向量矩阵,s表示输入文档,y表示关键词,Mean表示平均池化;采用多层Transformer编码器对句子向量进行编码,定义编码器输入为并定义m为句子数目,Transformer对向量更新如公式3: 其中,表示第i层Transformer的输出结果;子步骤3-3,构建子主题发现层,基于K-Means聚类算法为输入文档构建k个子主题,具体如下:1随机选择k个句子表示初始的簇中心;2计算句子到各个中心的距离,并将其分配给距离最小的簇,其中距离为两个向量表示之间的余弦距离;3根据簇中所有句子的平均值计算一个新的中心;4重复步骤2和3,直到中心向量不再更新或达到最大迭代次数,通过上述步骤,得到文本的子主题集合,可形式化表示公式4:{e1,e2,…,ek}=K–MeansHs4其中,ei为m维二元向量,m为文本句子的数目,子步骤3-4,构建关键词解码层,应用聚焦不同子主题的多解码器组并行生成关键词,解码器组中每个解码器采用结合复制机制的单向GRU实现,具体如下:首先,计算第i个子主题的向量表示的公式5:ci=MeanHs,ei5在训练时需通过距离函数为每个子主题分配目标关键词,如公式6所示: 其中,表示第j个关键词的向量表示,在得到和所有短语的距离之后,选在距离最短的作为解码时的目标;由于解码器组中各个解码器生成过程相同,后续将具体描述其中一个解码器的工作过程,假设第a个子主题分配的关键词序号也为a,假设潜变量服从多元高斯分布,并通过公式7和公式8计算高斯分布参数: 通过重参技巧采样潜变量z,训练阶段测试时在解码时间步t时,利用公式9输入前一单词ut-1和状态st-1,得到当前隐藏状态,公式10表示解码器的初始化,st=GRUut-1,st-19s0=z10之后,基于注意力机制,利用公式11计算输入文本中每个单词的注意力权重,并通过公式12加权求和得到当前上下文表示向量:αt=attentionHs,st11 其中,Hs为原文单词特征向量构成的特征矩阵;然后,通过公式13得到单词在词表上的分布:Pvocab=generationst,ct13在复制机制中,将单词的注意力权重视为当前时刻,生成的单词在源文本中的分布,最终,时间步t时,预测单词的最后分布如公式14和公式15所示:Pfinal=1-λt·Pvocab+λt·Pccopy14λt=copyratest,ct15其中Pcopy=αt,λt表示从原文复制单词的概率;子步骤3-5,联合训练损失,采用随机初始化的方式对所有的参数进行初始化,采用Adam优化器进行梯度反向传播更新模型参数,初始学习率设置为0.01,并使用最大梯度范数为5的梯度进行剪切,生成的关键词长度控制在10个单词以内,当训练损失不再下降或训练轮数超过20轮,模型训练结束,并保存在验证集上表现最好的模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京优慧信安科技有限公司,其通讯地址为:210012 江苏省南京市雨花台区西春路1号创智大厦南楼一楼-019;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。