北京行云在线软件开发有限公司梁天新获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京行云在线软件开发有限公司申请的专利基于大模型和聚类算法的自动标注方法、装置和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119646191B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411780076.0,技术领域涉及:G06F16/334;该发明授权基于大模型和聚类算法的自动标注方法、装置和设备是由梁天新;吴欢;朱钦;孙洪静设计研发完成,并于2024-12-05向国家知识产权局提交的专利申请。
本基于大模型和聚类算法的自动标注方法、装置和设备在说明书摘要公布了:本申请涉及数据处理相关技术领域,具体涉及一种基于大模型和聚类算法的自动标注方法、装置和设备。其中,方法包括:使用自然语言处理技术,对原始数据集进行初步分析,为原始数据集中的每一条数据生成一个初始标签;应用聚类算法对生成的初始标签进行聚类分析,基于标签间的相似性或关联性将初始标签分组,得到多个初始标签组;从每个初始标签组中选择最具代表性的标签,用以替代该初始标签组中的所有标签,以简化标签体系并减少冗余;判断原始数据集中任意两条数据之间的相似度;基于所述相似度对所述标签体系进行调节。
本发明授权基于大模型和聚类算法的自动标注方法、装置和设备在权利要求书中公布了:1.一种基于大模型和聚类算法的自动标注方法,其特征在于,包括: 使用自然语言处理技术,对原始数据集进行初步分析,为原始数据集中的每一条数据生成一个初始标签; 应用聚类算法对生成的初始标签进行聚类分析,基于标签间的相似性或关联性将初始标签分组,得到多个初始标签组; 从每个初始标签组中选择最具代表性的标签,用以替代该初始标签组中的所有标签,以简化标签体系并减少冗余; 判断原始数据集中任意两条数据之间的相似度; 确定根据所述判断的原始数据集中任意两条数据之间的相似度,余弦相似度大于预设阈值的两条数据为目标数据对; 核实所述目标数据对对应的两条数据,在所述简化后的标签体系下,是否属于同一标签; 若不属于同一标签,则基于第一大模型再次判断所述目标数据对对应的两条数据是否应属于同一标签; 若所述第一大模型判断所述目标数据对对应的两条数据应属于同一标签,则修改所述目标数据对对应的两条数据的标签以使其一致; 并且,基于所述第一大模型的再次判断结果或所述标签修改的结果,生成训练数据; 将所述生成的训练数据用于对判断所述原始数据集中任意两条数据之间相似度的模型进行重新训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京行云在线软件开发有限公司,其通讯地址为:101100 北京市通州区榆景东路2号院20号楼5层501;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。