首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种匿名信息源网络实体消岐方法、设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥工业大学

摘要:本发明涉及数据查询领域,提供了一种匿名信息源网络实体消岐方法、设备及存储介质,方法为:获取实体‑实体网络,信息源‑信息源网络和实体‑信息源网络;在每个网络中计算角色导向随机游走概率值,分别得到每个网络的随机游走序列;根据每个网络的随机游走序列,得到每个网络的随机游走序列的正样本;在三个网络中计算负采样值,并按值排序自适应负采样,得到每个网络对应的负样本;根据正负样本进行训练,利用训练好的网络及聚类方法完成同名消歧。本发明能在匿名情况下提高同名实体消歧结果准确率。

主权项:1.一种匿名信息源网络实体消岐方法,其特征在于:包括以下步骤:S1:获取信息源数据集,并对其进行实体识别,得到每个信息源的实体集,同时进行匿名处理,得到实体-实体网络Gaa,信息源-信息源网络Gdd和实体-信息源网络Gad;信息源包括:网页、PDF文档和论文;步骤S1中采用BiLSTM或BiLSTM+CRF进行实体识别;步骤S1中,实体-实体网络Gaa=(Vaa,Eaa),信息源-信息源网络Gdd=(Vdd,Edd),实体-信息源网络Gad=(Vaa∪Vdd,Ead);其中,Vaa表示所有实体的名称集合,Vdd表示所有的信息源集合,Eaa为实体-实体网络中的边集,表示两个实体出现在同一个信息源,同时出现在信息源的次数为边权重,为信息源-信息源网络的边集,表示两个信息源的实体集存在交集,交集数量表示边权重,Ead为实体-信息源网络的边集,表示实体在该信息源出现过,边权重为1;S2:在每个网络中计算角色导向随机游走概率值,分别得到每个网络的随机游走序列;步骤S2具体如下:S21、在实体-实体网络Gaa=(Vaa,Eaa),任选一个实体节点,根据角色导向随机游走策略,计算走到节点概率: 其中w为边的权重或为1,不存在边但角色相同时为1,Z为归一化常数,为实体节点的角色;按概率随机游走L步,得到随机游走序列;S22、按步骤S21相同的方式分别得到信息源-信息源网络Gdd=(Vdd,Edd)的随机游走序列和实体-信息源网络Gad=(Vaa∪Vdd,Ead)的随机游走序列;在信息源-信息源网络Gdd=(Vdd,Edd)任选一个信息源节点,根据角色导向随机游走策略,计算走到节点概率: 其中为边的权重或为1,Z为归一化常数,按概率随机游走L步,得到随机游走序列;在实体-信息源网络Gad=(Vaa∪Vdd,Ead)中,将Vdd和Vaa看成同一类型的节点进行角色发现,任选一个实体节点或信息源节点,根据角色导向随机游走策略,计算走到节点概率或走到节点的概率: 其中Z为归一化常数,按概率随机游走L步,得到随机游走序列;S3:根据每个网络的随机游走序列,得到每个网络的随机游走序列的正样本;步骤S3具体为:在每个网络的随机游走序列中每次随机选择一个实体节点,并取该实体节点中至多前n个和后n个节点,一起组成该实体节点的正样本,同时依照此方法,获得每个网络的随机游走序列所有节点的正样本;n为预设值;其中,实体-信息源网络所产生的游走序列选择正样本时,每次选择序列上的一个信息源节点,而后去除序列上的其他信息源节点,再取其前后至多n个实体节点作为正样本;S4、在三个网络中计算负采样值,并按值排序自适应负采样,得到每个网络对应的负样本;步骤S4具体为:S41、在实体-实体网络Gaa=(Vaa,Eaa)中的负采样任意实体表示节点作为负采样节点的负采样值为: 其中,负采样集合为不在随机游走序列Saa上的节点集合,将中的所有节点按负采样值从大到小排序,取至多前2*n个实体节点作为训练节点k的负样本;S42、按照步骤S41相同的方式分别得到信息源-信息源网络Gdd和实体-信息源网络Gad的负样本;在信息源-信息源网络Gdd=(Vdd,Edd)中的负采样任意信息源表示节点作为负采样节点的负采样值为: 其中,负采样集合为不在随机游走序列Sdd上的节点集合,将中的所有节点按负采样值从大到小排序,取至多前2*n个信息源节点作为信息源训练节点k的负样本;在实体-信息源网络Gad=(Vaa∪Vdd,Ead)中的任意实体表示节点作为负采样节点的负采样值为: 其中,负采样集合为不在随机游走序列Sad上的所有实体节点集合,将中的所有实体节点按负采样值从大到小排序,取至多前2*n个作为信息源训练节点k的负样本;S5、根据每个网络的随机游走序列所有节点的正样本以及每个网络对应的负样本,得到每个网络的损失函数,并根据每个网络的损失函数得到总体损失函数;S6、根据总体损失函数训练,直至损失函数收敛;S7、损失函数收敛后,若用户知道真实关注的同名实体数,则采用层次聚类法区分真实实体对应的信息源,否则采用DBSCAN聚类法得到自适应的消歧信息源。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种匿名信息源网络实体消岐方法、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。