买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国网江苏省电力有限公司营销服务中心
摘要:基于语境响应与结构增强的电力营销实体识别方法及系统,首先采集电力营销的工单以及客户互动数据,然后构建NER语境响应模式,并利用电力营销关键词词表对每条待检测数据进行分词;之后,根据分词结果构建每条待检测文本的语义结构图,再对每条待检测文本进行编码与结构增强;使用解码器对每条待检测文本进行解码,最后根据语境响应模式,计算生成文本的损失优化模型并提取得到实体。本发明提出的NER语境响应模式以及结构增强能够最大限度利用语言模型对上下文的优势,有效地处理电力营销领域文本数据并取得更好的训练效果;所提出的结构增强计算方法能够有效增强每个分词的领域特性,其计算复杂性和增强效果远高于现有技术。
主权项:1.基于语境响应与结构增强的电力营销实体识别方法,其特征在于,所述电力营销实体识别方法包括以下步骤:步骤1,采集电力营销的工单以及客户互动数据,将其汇总构成电力营销NER数据集;步骤2,构建NER语境响应模式,将输入待检测文本设置为A,待挖掘的实体指称为B,B的实体类型为C;NER语境响应模式包括正响应模式与负响应模式;正响应模式为肯定式陈述句,负响应模式为对应正响应模式的否定式陈述句;步骤3,利用电力营销关键词词表对电力营销NER数据集中每条待检测文本进行分词;步骤4,根据分词结果构建每条待检测文本的语义结构图,设待检测文本A分词后结果为AA={x1,x2,…,xn},xi,i=1,2…n表示第i个分词结果,即token,n表示待检测文本A所有分词的总数,则将每个tokenxi作为一个顶点,将文本A组成一个图,任意两个顶点u,v之间存在一条带权边,其权重由如下方法计算: 其中,cu,v为归一化后,任意两个tokenu与v在NER数据集中共同出现的概率;而su与sv分别为tokenu和tokenv在图中的重要程度分值,越高说明越重要,uii为u的一阶邻居顶点,ii=1,2,3…m,m表示u的邻居数,duii表示分词uii作为图中顶点的边数,δ为平滑系数;b和t表示缩放比例超参数,该缩放比例超参数可以根据实际情况进行设定,表示分词uii在整NER数据集中出现的次数;步骤5,结合步骤4得到的语义结构图,对每条待检测文本进行编码并对每个编码进行结构增强;使用包含自注意力机制的编码器对分词进行编码,得到编码结果H=[h1;h2;…;hn],其中,hi表示对待检测文本A的第i个tokenxi的词向量编码结果;结构增强是指对于语义结构图中每个单词顶点,根据其相邻l阶之内的其他单词语义的影响,更新该单词顶点的编码结果;每个顶点的初始向量表示设置为 随后,对于每一阶迭代,根据如下公式更新每个顶点的向量: 0lFFNx=Wx+bb W表示一个参数矩阵,bb表示一个参数向量,MaxPool表示最大池化操作,表示第l阶迭代更新后第i个顶点的向量;表示第l-1阶迭代更新后第i个顶点的向量;Hl-1表示经过l-1阶迭代得到的输入文本的上下文向量;si表示分词i在图中的重要程度分值,通过步骤4的方法计算得到;Ni为顶点邻居中存在的电力营销关键词顶点总数;αj为传播的权重;步骤6,使用解码器对每条待检测文本进行解码,解码器为LSTM,每个时刻依次生成一个汉字yt;初始时刻的隐藏状态向量e0由下式计算得到: 为了利用上下文的语义,在解码过程的每一时刻t,使用上一时刻生成的汉字yt-1,隐藏状态et-1,以及当前时刻输入文本的语义向量来更新当前时刻的隐藏状态et;对于初始时刻t=0,上一时刻生成的汉字与隐藏状态分别为0;步骤7,根据语境响应模式,计算生成文本的损失优化模型并提取得到实体;根据解码的结果,在时刻t,生成汉字词表中任意汉字y的概率计算如下: 其中,yt表示时刻t生成的汉字,每个时刻选择概率p最高的汉字y作为yt;这样,每个时刻生成的yt最终组合成文本A*。
全文数据:
权利要求:
百度查询: 国网江苏省电力有限公司营销服务中心 基于语境响应与结构增强的电力营销实体识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。