首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于图结构的网络威胁情报全文关系抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:四川大学

摘要:本发明公开了一种基于图结构的网络威胁情报全文关系抽取方法,涉及网络空间安全、威胁情报处理与深度学习技术领域。本发明中关系抽取模型的构建方法包括样本收集步骤、训练集划分步骤、数据处理步骤、构建句内上下文表示层步骤、构建文档图与表征节点步骤、构建全文图卷积层步骤、构建原型表示层步骤、构建关系分类层步骤和模型训练及优化步骤。采用本发明方法构建关系抽取模型,能够有效抽取威胁情报中的句内、句间乃至全文关系,且适用于训练数据较少的场景。

主权项:1.一种基于图结构的网络威胁情报全文关系抽取方法,其特征在于:包括以下步骤:S1、样本收集步骤,收集设定数量的网络威胁情报,进行数据清洗,保留文本内容,根据具体场景定义实体类型以及关系模型,人工标注网络威胁情报并进行交叉验证,标注完成的网络威胁情报存样本数据库中;将样本数据库中的样本数据按照设定比例划分为训练集和测试集;S2、训练集划分步骤,将训练集中的样本,按照各样本中威胁情报的占比进行分类,将分类后的样本数据,按照对应类别,分别进行训练;S3、数据处理步骤,处理训练样本中的网络威胁情报文档,进行分段、分句和分词,将单词拆分为子词,形成子词序列;将得到的子词序列作为待训练的关系抽取模型的输入;S4、构建句内上下文表示层步骤,以句子为单位提取句内上下文语义,对于子词和其所在位置分别使用嵌入矩阵进行嵌入表示,得到子词表征;然后采用基于自注意力模型的双向编码器BERT进行上下文语义提取;将同一个单词的所有子词以平均的方式将子词序列聚合回单词序列;S5、构建文档图与表征节点步骤,文档图涵盖四种不同类型的节点和六种边,边表示节点之间的关系;四种不同类型的节点分别是提及节点、实体节点、句子节点和全局节点;六种边分别为全局节点与句子节点之间的关系、句子节点与句子节点之间的关系、提及节点与句子节点之间的关系、提及节点与提及节点之间的关系、提及节点与实体节点之间的关系、实体节点与句子节点之间的关系;其中,提及节点指的是对实体的引用或具体出现,提及节点的表征是该提及所包含的所有单词表征的平均;实体节点代表了同一实体在文本中的所有出现,实体节点的表征是该实体的所有提及节点的表征的平均;句子节点代表威胁情报中的一个句子,将句子内所有单词表征进行整合得到句子节点的表征;全局节点的表征是由所有句子节点的表征去平均后得到;S6、构建全文图卷积层步骤,采用图卷积神经网络聚合文档图中相邻节点特征以更新当前节点的表征,确保节点间信息的有效传递和交互;S7、构建原型表示层步骤,经过全文图卷积层卷积后,将待分类的实体节点对的向量以及它们的类别嵌入拼接后得到该待分类实体对的初始表示向量;经过线性变换将初始表示向量构建成原型表征向量,该原型表征向量的空间为原型空间;若需要抽取的关系种类数量有R种,则原型空间被分为R个区域,每个区域代表一种关系类型,每个区域的原型中心通过对该区域内所有已知的关系原型进行平均得到;在训练过程中,对于关系原型,确保该关系原型在原型空间中距离所属区域的中心更近,同时远离其他区域的中心;S8、构建关系分类层步骤,关系分类层采用多层全连接神经网络,对于待分类的实体节点对,将待分类的实体节点对的两个节点的向量以及它们的类型嵌入拼接后得到该待分类实体对的原始向量;将该原始向量作为多层全连接神经网络的输入;S9、模型训练及优化步骤,根据步骤S3得到的训练数据进行关系抽取,模型计算并抽取关系,用交叉熵函数计算预测抽取关系与真实关系的损失值;同时计算关系表征与原型中心的归一化指数损失值,二者叠加后利用反向传播算法和优化器调整模型参数;循环上述步骤,直到损失值达到平稳状态,或达到最大迭代轮次;最终得到训练好的关系抽取模型;S10、网络威胁情报处理步骤,对网络威胁情报文档进行分段、分句、分词处理,将单词拆分为子词,形成子词序列;S11、基于步骤S10得到的子词序列,输入到步骤S9得到的关系抽取模型进行关系抽取。

全文数据:

权利要求:

百度查询: 四川大学 一种基于图结构的网络威胁情报全文关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。