广州市讯飞樽鸿信息技术有限公司熊艺华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广州市讯飞樽鸿信息技术有限公司申请的专利一种基于聚类的新意图发现方法、装置、设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114510567B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111592178.6,技术领域涉及:G06F16/353;该发明授权一种基于聚类的新意图发现方法、装置、设备和存储介质是由熊艺华;杨双霞;周志勇设计研发完成,并于2021-12-23向国家知识产权局提交的专利申请。
本一种基于聚类的新意图发现方法、装置、设备和存储介质在说明书摘要公布了:本申请公开了一种基于聚类的新意图发现方法、装置、设备和存储介质,本申请先根据已知意图数据对分类器进行预训练,再通过优化后的轮廓系数选取聚类数,聚类效果较好,将已知意图数据和无标签数据结合训练分类器的模式,迭代时将上一轮的已知意图数据作为监督信号,不断地更新已知意图数据,直至没有增加新意图时,停止迭代,并输出发现新意图的对齐标签,充分利用了已知意图数据,增强了分类、聚类过程之间的信息交流,更有利于指导聚类过程并准确充分地发现新意图,从而解决了现有技术没有充分利用已知意图的数据,没有考虑新增意图和已知意图的区别,导致聚类效果不佳,难以准确充分地发现新意图的技术问题。
本发明授权一种基于聚类的新意图发现方法、装置、设备和存储介质在权利要求书中公布了:1.一种基于聚类的新意图发现方法,其特征在于,包括: S101、根据已知意图文本数据对分类器进行预训练; S102、根据预置轮廓系数选取聚类数,包括: 根据第一轮廓系数和或第二轮廓系数选取聚类数; 所述第一轮廓系数为: 所述第二轮廓系数为: 其中,li为带惩罚项的轮廓系数,lia为扩展的带惩罚项的轮廓系数,si为传统轮廓系数的定义,λ和γ均为超参数,K为聚类数,N为样本总数,Ck为样本i所属的簇,sia为轮廓系数,为样本i所属新增的簇,σ和u分别为当前聚类簇样本数的标准差和均值,首次迭代时通过第一轮廓系数选取聚类数,在后续迭代时则通过第二轮廓系数选取聚类数; S103、基于K-means聚类算法,根据所述聚类数对无标签数据进行聚类生成聚类结果,并将所述聚类结果和真实标签对齐得到发现新意图的对齐标签; S104、根据所述聚类结果和所述已知意图文本数据训练所述分类器,得到所述分类器的伪标签; S105、计算所述对齐标签和所述伪标签的KL散度,以更新所述已知意图文本数据; S106、重复执行步骤S101至S105,直至没有增加新意图时,输出所述对齐标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州市讯飞樽鸿信息技术有限公司,其通讯地址为:510665 广东省广州市天河区建业路华翠街68号自编之一101B房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。