闽南理工学院郑双阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉闽南理工学院申请的专利一种高质量智能数据标注方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120873192B 。
龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511403494.2,技术领域涉及:G06F16/353;该发明授权一种高质量智能数据标注方法是由郑双阳;陈柏聿;林一;沈景铭;黄文辉;钟阳晨;黄宇宏设计研发完成,并于2025-09-29向国家知识产权局提交的专利申请。
本一种高质量智能数据标注方法在说明书摘要公布了:本发明适用于数据标注技术领域,提供了一种高质量智能数据标注方法,包括以下步骤:向量化及向量空间构建:输入文本,进行种子标注,选择代表性样本;将文本映射为d维语义向量,得到整个语料的向量空间;以部分已标注样本为提示,驱动LLM产出规则特征,确定规则特征向量;构造混合特征空间;构建相似图,进行标签传播;进行不确定数学信度检验,将信度嵌入样本,确定向量证据、规则证据以及LLM直判证据,进行证据融合,将证据变成最终信度,将信度送入标签传播,进行决策。本发明利用LLM产出规则特征并确定规则特征向量,挖掘数据中的语义和模式信息,两者在混合特征空间中融合,从多个角度对数据进行表征,提高了标注的准确性。
本发明授权一种高质量智能数据标注方法在权利要求书中公布了:1.一种高质量智能数据标注方法,其特征在于,所述方法包括以下步骤: 向量化及向量空间构建:输入文本,进行种子标注,选择代表性样本;将文本映射为d维语义向量,对d维语义向量进行归一化,得到整个语料的向量空间,d为定值; 以部分已标注样本为提示,驱动LLM产出规则特征,确定规则特征向量; 基于语义向量和规则特征向量构造混合特征空间; 构建相似图,进行标签传播; 利用不确定数学原理进行信度检验:将信度嵌入样本,确定向量证据、规则证据以及LLM直判证据,基于正则性、对偶性、次可加性以及积性进行证据融合,将证据变成最终信度,将信度送入标签传播,进行决策; 将文本映射为d维语义向量,对d维语义向量进行归一化的步骤,具体包括: 用编码器将文本映射为d维向量:,为生成的d维语义向量;表示向量化函数,将文本映射到向量空间;表示第z个输入文本;为d维实数向量空间,表示是一个d维向量;d为向量维度; 用L2归一化以便稳定相似度:,表示向量经过L2归一化后的结果,长度被归一化为1;表示向量的L2范数;表示向量在第个维度上的分量; 所述驱动LLM产出规则特征的步骤,具体包括: 驱动LLM产出可读规则,所述可读规则包括关键词、模式、句法线索以及领域谓词; 将可读规则转化为规则特征,规则特征包括二值计数特征以及匹配分数; 记规则特征向量为,m为规则条目数; 基于语义向量和规则特征向量构造混合特征空间的步骤,具体包括: 将语义向量与规则特征向量级联或加权拼接得到融合特征向量:,其中,0,表示语义向量通道的权重,表示规则通道的权重; 得到混合特征空间,用于保持全局语义结构,同时嵌入可解释约束,便于传播与审计; 所述构建相似图的步骤,具体包括: 确定两个语义向量间的余弦相似度或者欧氏距离,并以此为度量依据; 基于融合特征向量,利用所述度量为每个样本找其k个最近邻,从而构建稀疏图,其中,k为正整数超参数,用于控制邻接集合的稀疏度;n为样本数,为样本i的融合特征向量;G为无向加权图,表示样本集合,E是所有边的集合,表示节点之间的连接; 1近邻集合与掩码: ; ; 其中,为节点i的k-近邻集合,为两个向量和的相似度,为相似度排名前的节点;为邻接掩码,用于表示节点之间是否存在近邻关系,为指示函数,如果节点j在节点i的k-近邻集合中则为1,否则为0; 2基础边权,任选其一: ; 其中,为节点i和节点j的基础边权;为余弦相似度,是确保权重不为负数,p为幂指数,用于控制相似度分布的陡峭程度;为平方欧式距离,为超参数,用于控制相似度衰减的速度,为指数函数,用于将负的距离平方映射到一个0,1]之间的相似度值; 3规则一致性调制: ; 其中,为节点i和节点j调制后的最终边权;为邻接掩码,为节点i和节点j的基础边权,为规则一致性调制函数,其数值范围限定在,其中为微调超参数,当时保持原权重,当时放大边权,当时衰减或切断边权; 4为获得无向加权图,可令 ; 其中W为调制后的权重矩阵,为W转置矩阵,该步骤4将调制后的权重矩阵W与其转置取平均值,确保,从而使得图结构变为无向图;T为转置操作; 5行归一化得到转移矩阵: ; 其中,D为度矩阵,为转移矩阵,对角线上的元素是节点i所有出边的权重之和;若出现Dii=0,则设Sii=1,Sij=0,;表示从样本i将标签质量传给样本j的权重,所得转移矩阵S将用于后续的标签传播步骤。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人闽南理工学院,其通讯地址为:362700 福建省泉州市石狮市厝仔工业区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励