Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京大学陈刚获国家专利权

南京大学陈刚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京大学申请的专利一种基于W2ner模型的文化知识图谱构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120196768B

龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510673642.6,技术领域涉及:G06F16/36;该发明授权一种基于W2ner模型的文化知识图谱构建方法是由陈刚;危宗军;曹梦婷;廖敏伊;徐有恒设计研发完成,并于2025-05-23向国家知识产权局提交的专利申请。

一种基于W2ner模型的文化知识图谱构建方法在说明书摘要公布了:本发明公开了一种基于W2ner模型的文化知识图谱构建方法,属于文化、人工智能技术领域,包括S1:数据采集;S2:基于W2ner模型对采集的数据进行复杂实体识别;S3:基于大语言模型进行开放域关系抽取;S4:利用K‑means聚类算法实现关系短语的有效合并,进行关系规范化;S5:将经过识别、抽取及对齐后得到的规范化知识三元组存入数据库中,并进行可视化输出;本发明整合了针对复杂实体识别、开放域关系抽取、关系规范化的专门技术模块,并结合图数据库存储,形成更适应文化文本特性、自动化程度更高的知识图谱构建技术方案。

本发明授权一种基于W2ner模型的文化知识图谱构建方法在权利要求书中公布了:1.一种基于W2ner模型的文化知识图谱构建方法,其特征在于:包括以下步骤: S1:数据采集; S2:基于W2ner模型对采集的数据进行复杂实体识别; S21:定义文本中任意两个字符xi和xj之间的关系类别; S22:利用预训练模型BERT及双向LSTM网络处理输入句子,生成包含上下文信息的字符向量表示; S23:利用条件层归一化,将字符向量表示转换为二维的字符对关系网格,然后通过多层感知机和多粒度膨胀卷积在该网格上捕捉不同距离字符对的交互特征,形成最终的字符对特征表示Q; 首先,构造初始字符对网格并进行条件层归一化; 然后进行MLP映射,对每个格点通过多层感知机进行降维与非线性变换,具体为: ; ; ; 其中,Fi,j表示位置对i,j的多层感知机输出的降维特征,df表示多层感知机输出维度,W1、b1均表示多层感知机第一层的参数;W2、b2均表示多层感知机第二层的参数;dm表示隐藏层维度;表示位置对i,j的输入向量;Ui,j表示位置对i,j的多层感知机第一层输出;ReLU表示激活函数;x表示线性变换的输入;X表示激活函数的输出值; 最后进行多粒度膨胀卷积; 多粒度膨胀卷积的具体内容为: 设第k粒度膨胀率为dk,卷积核K(k)对输入的降维特征F与膨胀卷积粒度数K进行卷积操作,具体为: ; 其中,dk表示第k种膨胀率,kh、kw分别表示卷积核高、宽,dg表示每个膨胀卷积输出的通道数,K(k)表示第k粒度的卷积核权重,u和v表示卷积核内部的两个索引; 对多粒度d1、d2、d3都进行卷积获得G1、G2、G3,具体为: ; 其中,K表示膨胀卷积粒度数,k表示第k个膨胀卷积粒度;表示第k种膨胀率下,在位置对i,j处卷积的结果向量;dg表示每个膨胀卷积输出的通道数; 最后求和获得Qi,j; S24:基于该字符对特征表示Q,使用多层感知机和双仿射预测器预测每对字符xi,xj之间预定义的关系类别;并对关系进行解码,输出最终的实体识别结果; 首先进行多层感知机投射到头、尾表示,对每个位置对i,j、已有特征向量Qi,j,分别用两条独立的单层MLP得到头和尾表示; ; ; ; 其中,Wh,bh分别表示head映射的权重矩阵与偏置向量;Wt,bt分别表示tail映射的权重矩阵与偏置向量,ui,j表示头表示向量;vi,j表示尾表示向量;ReLU表示激活函数;x表示该层线性变换的输入;X表示激活函数的输出值;du表示头和尾表示向量的维度; 然后进行双仿射打分,对第r类关系,用参数W、U计算仿射得分,具体为: ; 其中,||表示向量拼接,Wr、Ur分别表示双仿射参数、偏置,br表示偏置标量;表示位置对i,j属于第r类的原始分数;ui,j表示头表示向量;vi,j表示尾表示向量;T表示转置运算符; 最后进行关系分类与训练损失,对位置对i,j处所有R类得分做Softmax,得到概率分布,具体为: ; 其中,exp表示指数函数ex,表示位置对i,j预测为关系r的概率,R表示关系类别数;表示位置对i,j属于第r类的原始分数;表示位置对i,j属于第类的原始分数,用表示遍历所有可能的关系类别; 然后获取每个位置对i,j的预测的关系类别; 在预测阶段,对每个i,j取: ; 其中,表示位置对i,j预测为关系r的概率;表示预测的关系类别,argmax表示运算符; S3:基于大语言模型进行开放域关系抽取; S31:实体信息的融入与扩展; 包括实体信息融入、实体类型的补充、隐藏信息推理以及误差传播修正; S32:基于实体信息的融入与扩展进行三步法提示策略的实施; 需求提示:明确任务目标、输出格式及实体表示规范; 输入格式提示,单位一致性,输出格式提示; 领域知识提示:融入文化领域背景知识和专家经验; 案例提示:通过少量典型的示例,引导模型学习如何抽取高质量、语义多样的关系; S33:将S2中识别出的实体信息作为参考性输入提供到大语言模型中,进行实体识别修正; S4:利用K-means聚类算法实现关系短语的有效合并,进行关系规范化; 对所有关系短语的向量表示应用K-means聚类算法减少关系类型的具体内容为: S41:随机选取m个样本作为初始的聚类中心; S42:对每个样本xi,找到距离最近的质心,赋予标签c; ; 其中,表示第t次迭代后,第j个簇的质心,||·||表示向量模长;表示xi在第t次迭代中被分配到的簇标签;M表示聚类簇数;表示第t-1次迭代后,第j个簇的质心; S43:对每个簇,用该簇所有样本的均值作为新质心; ; ; 其中,表示在第t次迭代中,簇j包含的样本索引集合;xi表示第i个样本字符;表示第t次迭代后,第j个簇的质心; S5:将经过识别、抽取及对齐后得到的规范化知识三元组存入数据库中,并进行可视化输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。