恭喜数据堂(北京)科技股份有限公司齐红威获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜数据堂(北京)科技股份有限公司申请的专利大模型数据智能标注方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119378564B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411949511.8,技术领域涉及:G06F40/30;该发明授权大模型数据智能标注方法及系统是由齐红威;王大亮;丰强泽;栗全峰;高禹;郑继龙设计研发完成,并于2024-12-27向国家知识产权局提交的专利申请。
本大模型数据智能标注方法及系统在说明书摘要公布了:本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。
本发明授权大模型数据智能标注方法及系统在权利要求书中公布了:1.一种大模型数据智能标注方法,其特征在于,包括:获取未标注文本数据集;对所述未标注文本数据集中的各个未标注文本数据进行置信度评估以确定代表样本数据,选择未标注样本置信度的集合中最小置信度对应的未标注文本数据作为所述代表样本数据;对所述代表样本数据进行语料扩充以得到代表样本数据扩充描述;分别对所述代表样本数据和所述代表样本数据扩充描述进行语义编码以得到代表样本数据语义编码特征向量和代表样本数据扩充描述语义编码特征向量;对所述代表样本数据语义编码特征向量和所述代表样本数据扩充描述语义编码特征向量进行补偿式交互融合以得到代表样本数据语义交互补偿融合表示向量;基于所述代表样本数据语义交互补偿融合表示向量,生成标注结果;其中,对所述代表样本数据语义编码特征向量和所述代表样本数据扩充描述语义编码特征向量进行补偿式交互融合,包括:提取所述代表样本数据语义编码特征向量和所述代表样本数据扩充描述语义编码特征向量之间的共性特征以得到代表样本数据特征间共性特征表示向量;以所述代表样本数据特征间共性特征表示向量为掩码,引导所述代表样本数据语义编码特征向量和所述代表样本数据扩充描述语义编码特征向量进行特征互补性增强交互融合以得到所述代表样本数据语义交互补偿融合表示向量;所述代表样本数据特征间共性特征表示向量为掩码,引导所述代表样本数据语义编码特征向量和所述代表样本数据扩充描述语义编码特征向量进行特征互补性增强交互融合以得到所述代表样本数据语义交互补偿融合表示向量,包括:基于所述代表样本数据语义编码特征向量、所述代表样本数据扩充描述语义编码特征向量相对于所述代表样本数据特征间共性特征表示向量的特定特征,对所述代表样本数据语义编码特征向量和所述代表样本数据扩充描述语义编码特征向量进行特征补偿调制以得到代表样本数据语义特征补偿向量和代表样本数据扩充描述语义特征补偿向量;将所述代表样本数据语义特征补偿向量、所述代表样本数据扩充描述语义特征补偿向量和所述代表样本数据特征间共性特征表示向量进行级联以得到所述代表样本数据特征间共性特征表示向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人数据堂(北京)科技股份有限公司,其通讯地址为:100080 北京市海淀区宝盛南路1号院11号楼1层101-01;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。