买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于数据分布自适应间隔的少样本复杂关系抽取方法,属于计算机自然语言处理领域。本发明针对文本中包含多个实体、多种关系的复杂场景,设计了元任务构造方法,引入了基于数据分布自适应间隔,并以此调整度量空间边界,同时引入负样本机制,解决None‑of‑the‑above场景问题,且对于常见的实体嵌套情况也可进行处理。
主权项:1.一种基于数据分布自适应间隔的少样本复杂关系抽取方法,其特征在于,通过构造元任务,基于数据分布自适应间隔和负样本机制,对复杂关系进行抽取;包括以下步骤:步骤1,将包含文本实例、关系三元组的训练数据按照N-wayk-shot的方式划分为一系列元任务,存放在任务列表[Task0,Task1,…]中;每个元任务均包含支持集和查询集,支持集与查询集中实例数量之比为2:1~3:1;步骤2,构建编码阶段预训练网络,对每个元任务中的数据进行处理,获得对文本的编码;步骤3,对步骤1得到的支持集查询集的文本进行编码,得到向量表示;取当前实例中实体对应位置的向量,进行聚合,得到每个实体的向量表示;步骤4,将支持集查询集中的实体向量表示两两组合并进行拼接,得到[ei,ej],i、j为实体序号,i≠j;步骤5,步骤1得到的支持集查询集中包含N+个关系类别[R1,R2,…,RN+],将步骤4得到的实体对表示按对应关系存放,若实体对不存在关系,则存放为None类别,并求得每类关系下实体对表示的均值作为每类关系的向量簇心,即每类关系的向量表示,由此得到度量空间;具体方式为:5-1对于每个关系分类,结合该分类下包含的实体对表示,生成每个关系分类的簇心,作为该关系的向量表示;关系k的向量表示计算方法如下, 其中,Skr为存在关系k的实体对向量拼接的集合;5-2计算每个元任务中每类关系对应的实体对数目占比,将划分边界运用于关系预测中,使预测到正确的关系标注的概率增大,对于关系k,其边界阈值定义如下: 其中,|Sk|和|SR\k|分别为支持集中关系k的实例三元组的数量和除关系k外的实例三元组的数量,R为支持集的关系集合;5-3设置负样本机制,将不存在关系的实体对也进行5-1到5-2的计算,作为独立的空间进行预测判断;步骤6,计算步骤4得到的支持集和查询集的所有待预测的实体对表示与度量空间中的每类关系簇心的欧式距离,并通过激活函数进行关系类别预测;步骤7,运行大量的元任务,重复执行步骤2至步骤6,通过梯度下降的方式来训练编码阶段预训练网络,更新网络参数。
全文数据:
权利要求:
百度查询: 中国电子科技集团公司第五十四研究所 一种基于数据分布自适应间隔的少样本复杂关系抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。