恭喜上海交通大学蔡鸿明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜上海交通大学申请的专利基于知识图谱的文件语义关联存储系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113961528B 。
龙图腾网通过国家知识产权局官网在2025-04-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111255086.9,技术领域涉及:G06F16/172;该发明授权基于知识图谱的文件语义关联存储系统及方法是由蔡鸿明;潘子奕;于晗;姜丽红设计研发完成,并于2021-10-27向国家知识产权局提交的专利申请。
本基于知识图谱的文件语义关联存储系统及方法在说明书摘要公布了:一种基于知识图谱的文件语义关联存储系统及方法,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,本发明以工业生产领域过程中产生的多类型文件集为输入,结合领域知识图谱完成文件语义关联与分区,最后基于文件分块以及链式哈希完成文件分区安全存储,并形成相应的存储元数据。
本发明授权基于知识图谱的文件语义关联存储系统及方法在权利要求书中公布了:1.一种基于知识图谱的文件语义关联存储系统,其特征在于,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,其中:多模态特征抽取模块对输入的多类型文件集进行多模态分析及特征抽取进一步转化为包含特征信息的语义抽象文件集;结构化知识抽取模块借助从XML类型文件抽取出的元结构再从输入的多类型文件集中抽取出对应的实体从而转化为结构化知识集;多层次语义补全模块将结构化知识集自顶向下地融合到领域知识图谱中实现知识图谱的动态演化;自动语义关联模块以领域知识图谱为支撑对包含特征信息的语义抽象文件集进行实体链接并建立语义关联从而转化为关联文件集;柔性动态分区模块通过语义聚类分区将文件动态划分到与其最关联的分区中;哈希安全存储模块基于语义分区文件集的分区信息,结合文件分块以及链式哈希对文件进行分布式安全存储;所述的多模态特征抽取包括:XML类型文件特征抽取、图纸类型文件特征抽取以及文档类型文件特征抽取;所述的多层次语义补全包括:语义本体补全以及语义实体补全,其中:所述的语义本体补全是指:遍历结构化知识集中的每个具有领域类型的本体作为待融合本体,并遍历知识图谱的本体层中具有领域类型的本体作为目标本体,接着基于相似度计算获得每个目标本体与待融合本体的相似度,其中相似度计算首先将本体代入词向量文件获得对应的低位稠密向量,再结合余弦相似度公式计算目标本体与待融合本体之间的相似度,之后再对于目标本体的属性本体与待融合本体的属性本体进行相似度计算并选择相似度最高的属性本体作为匹配属性本体,最后将类型本体相似度以及属性本体相似度进行加权平均与归一化即得到最终相似度,若所有的本体与待融合本体计算出的相似度都低于动态配置的阈值δ,则将待融合本体作为新的本体直接加入知识图谱的本体层,反之则选择所有候选者中相似度最高的本体作为待融合本体的主体,并一并融合扩充对应的属性本体;所述的语义实体补全是指:将待融合的数据集中存在领域类型的实体和已有的实体进行与比本体类似的相似度计算,若相似度高于阈值δ,则将该实体融合到已有实体上并扩充一些原本为空的属性实体,反之则作为一个新的实体赋予UUID新增到实体层中;所述的实体链接是指:通过遍历语义特征中的每个关键词来与知识图谱中的某一确定实体进行链接,首先基于名称字典的生成方式生成对应的候选实体,其中包含待连接关键词的各种变化信息后,将各类变化信息与领域知识图谱中的实体进行匹配并计算得分,匹配规则基于上下文独立特征后选择得分最高的实体作为链接实体;所述的建立语义关联是指:以知识图谱为支撑基于最小最短路径思想来建立最小宽度图,对于任意两个文件中任意一对具有领域类型的关键词语义特征,基于宽度优先搜索结合优先队列的方式并通过领域知识图谱在本体层以及实体层的图状关联计算出两两之间的最短路径,计算完成后如果两个文件之间所有的关键词都没有路径关联则说明文件之间没有关联关系因此无需建立语义关联,反之则在对应两个文件之间建立语义关联并设置两个文件的关联的权重为最小最短路径长度除以对应路径数量,同时记录对应的关键词特征,由于在该算法中应用了最小最短路径的思想,因此该算法构成的整个文件语义关联网络在解空间中为最小宽度图,从而保证了文件间语义关联的紧密性,因此也在语义的维度上进一步加强了文件关联的完整性;所述的语义聚类分区是指:首先基于具体的应用场景指定对应的分区数为n,然后任意选择语义关联文件集中n个文件为分区中心节点,并计算其他文件到分区中心节点的距离,其中距离计算基于公式:Distances,t=Min{Weights,si+Distancesi,t,si∈NeighborOfs}递归计算完成,其中s代表除分区中心节点之外的其他文件,t代表分区中心节点对应的文件,si代表s的所有邻居文件,由于在语义关联网络图中权重越小代表两个文件之间的关联越紧密,因此计算得到距离越小则代表文件之间在语义上越关联从而更应该被划分在同一个分区中,所以在完成距离计算后将节点分配到距离最近的分区中心节点对应的分区中,同时针对每个分区计算出使得距离和最小的节点作为新的分区中心节点,之后重复上述过程直到收敛;所述的收敛是指:对于任意一个文件F及其所在的语义分区中心点Pcentral都使得公式DistanceFPcentral与公式满足全局最小化特征,其中Fi为分配到分区P中的任意一个文件。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。