京华信息科技股份有限公司谢小能获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉京华信息科技股份有限公司申请的专利基于关键信息提取的内容追溯方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120197610B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510604767.3,技术领域涉及:G06F40/205;该发明授权基于关键信息提取的内容追溯方法及装置是由谢小能;苗苏望;刘真;申鑫设计研发完成,并于2025-05-12向国家知识产权局提交的专利申请。
本基于关键信息提取的内容追溯方法及装置在说明书摘要公布了:本发明涉及基于关键信息提取的内容追溯方法及装置,包括以下:获取待进行内容追溯的生成内容,并从所述生成内容中提取关键信息,所述关键信息包括完整段落、指标数据以及关键名,所述关键名包括人名、地名、机构名;将关键名与预设范围素材进行匹配,找到与关键名一致的素材所在段落或句子位置,得到关键名溯源结果;将指标数据与预设范围素材进行匹配,找到与指标数据一致的素材所在段落或句子位置,得到指标数据溯源结果;将完整段落与预设范围素材进行语义匹配,找到满足预设条件的素材及段落,得到段落溯源结果;输出关键名溯源结果、指标数据溯源结果以及段落溯源结果。本发明能够对生成内容进行有效追溯和管理。
本发明授权基于关键信息提取的内容追溯方法及装置在权利要求书中公布了:1.基于关键信息提取的内容追溯方法,其特征在于,包括以下: 获取待进行内容追溯的生成内容,并从所述生成内容中提取关键信息,所述关键信息包括完整段落、指标数据以及关键名,所述关键名包括人名、地名、机构名; 将关键名与预设范围素材进行匹配,找到与关键名一致的素材所在段落或句子位置,得到关键名溯源结果; 将指标数据与预设范围素材进行匹配,找到与指标数据一致的素材所在段落或句子位置,得到指标数据溯源结果; 将完整段落与预设范围素材进行语义匹配,找到满足预设条件的素材及段落,得到段落溯源结果; 输出关键名溯源结果、指标数据溯源结果以及段落溯源结果; 具体的,得到段落溯源结果的过程,包括, 将完整段落与预设范围素材进行语义匹配,具体的, 循环比对完整段落与预设范围素材进行段落相似度匹配得到第一相似度匹配结果,将第一相似度匹配结果超过第一阈值的段落标记为相似段落并标记段落来源信息, 若不存在超过第一阈值的第一相似度匹配结果,则将完整段落进行句子提取得到完整句子,将完整句子与预设范围素材进行句子相似度匹配得到第二相似度匹配结果,将第二相似度匹配结果超过第二阈值的句子标记为相似句子并标记句子来源信息; 若不存在超过第二阈值的第二相似度匹配结果则进行用户预选词追溯得到用户预选词追溯结果; 具体的,进行用户预选词追溯得到用户预选词追溯结果,包括, 将预设范围素材转换为词语形式得到多个不同的词语,以这些词语共同组成集合Ptc; 根据用户预选词,计算用户预选词在集合Ptc中的多个词语倾向集; 计算每个词语倾向集中所有元素的平均倾向趋势度,并选取词语倾向集中平均倾向趋势度处于前N项排名的的词语倾向集作为追溯词语倾向集; 则追溯词语倾向集所对应的预设范围素材中的内容即为用户预选词追溯结果; 具体的,将预设范围素材转换为词语形式得到多个不同的词语,以这些词语共同组成集合Ptc,包括, 通过去除标点符号的方式将预设范围素材中的文字内容提取出来,通过经典分词算法对文字内容进行分词处理得到多个不同的词语,以这些词语共同组成集合Ptc; 具体的,根据用户预选词,计算用户预选词在集合Ptc中的多个词语倾向集,包括, 假定用户共选取n个预选词; 将用户预选词的集合记为集合Querys,记集合Querys中元素的数量为n,集合Querys中的元素的序号为i,i∈[1,n],有Querys={Q1,Q2,…,Qn-1,Qn}; 记集合Ptc中元素的数量为m,集合Ptc中的元素的序号为j,j∈[1,m],有Ptc={Ptc1,Ptc2,…,Ptcm-1,Ptcm}; 记变量k表示集合Ptc中每个词语Ptcj的数组长度,变量h表示词语Ptcj中的字符串的序号,Ptcj,h表示集合Ptc中序号为j的元素中序号为h的字符串,h∈[1,k],有Ptcj=[Ptcj,1,Ptcj,1,…,Ptcj,k-1,Ptcj,k]; 记函数Glv为通过词嵌入算法计算输入的字符串得到其词向量的函数,GlvPtcj,h表示集合Ptc中序号为j的元素中序号为h的字符串通过词嵌入算法得到的词向量,记Gj,h=GlvPtcj,h,GlvQi表示集合Querys中序号为i元素的字符串通过词嵌入算法得到的词向量,记Gqi=GlvQi,变量q表示词向量的第q维度,变量p表示词向量的维度数量,Gj,h[q]表示词向量Gj,h的第q维度的数值,Gqi[q]表示词向量Gqi的第q维度的数值; 函数Sim表示计算输入的两个向量之间的倾向趋势度,函数SimGqi,Gj,h表示通过函数Sim计算词向量Gqi和Gj,h之间的倾向趋势度,倾向趋势度SimGqi,Gj,h的计算公式为: ; 计算集合Querys中的各个用户预选词在集合Ptc中各词语中的多个词语倾向集,包括以下步骤 S401,设置变量i的值为1;创建空集合Chianset,集合Chianset具有互异性及有序性;转到S402; S402,获取Querys中的序号为i的元素Qi;通过函数Glv获取Qi的Gqi;转到S403; S403,设置变量j的值为1;转到S404; S404,获取Ptc中的序号为j的元素Ptcj;创建空数组Simset;转到S405; S405,令变量h的数值为1;转到S406; S406,获取Ptcj中的序号为h的元素Ptcj,h;通过函数Glv获取Ptcj,h的Gj,h;转到S407; S407,获取倾向趋势度SimGqi,Gj,h;将倾向趋势度SimGqi,Gj,h加入数组Simset;转到S408; S408,判断是否满足约束条件h≥k,若是则转到S4081,若否则转到S4082; S4081,计算数组Simset中各元素的算数平均值sim_avg,将数组Simset中数值大于sim_avg的各元素的序号的集合作为集合Seq;以集合Seq中的各元素作为目标序号,提取出Ptcj中的目标序号的元素作为数组Chain,将数组Chain加入集合Chianset中;转到S409; S4082,将h的数值增加1;转到S406; S409,令h的数值为1;转到S410; S410,判断是否满足约束条件j≥m,若是则转到S411,若否则转到S4101; S4101,将j的数值增加1;转到S404; S411,将j的数值设置为1;转到S412; S412,判断是否满足约束条件i≥n,若是则转到S413,若否则转到S4121; S4121,将i的数值增加1;转到S402; S413,得到集合Chianset; 集合Chianset中的各个数组即为对应集合Querys中的各个搜索排名关键词的词语倾向集,记所得的多个词语倾向集的集合为集合Litset。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人京华信息科技股份有限公司,其通讯地址为:510520 广东省广州市天河区高普路138号京华信息大楼中座;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励