恭喜煤炭科学研究总院有限公司;天地科技股份有限公司北京技术研究分公司孙闯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜煤炭科学研究总院有限公司;天地科技股份有限公司北京技术研究分公司申请的专利煤炭行业词库分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119513321B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510066573.2,技术领域涉及:G06F16/353;该发明授权煤炭行业词库分类方法是由孙闯;程健;杨培培;贾琨;周子博;方乾;宋郑一凡设计研发完成,并于2025-01-16向国家知识产权局提交的专利申请。
本煤炭行业词库分类方法在说明书摘要公布了:本公开提出一种煤炭行业词库分类方法,包括:获取初始词库,长序列文本和短序列文本,长序列文本对应第一标注分类信息,短序列文本对应第二标注分类信息,将初始词库和长序列文本输入至第一文本分类模型中,获取第一预测分类信息,将长序列文本输入至第一文本分类模型中,获取第二预测分类信息,将初始词库和短序列文本输入至第二文本分类模型中,获取第三预测分类信息,将短序列文本输入至第二文本分类模型中,获取第四预测分类信息,根据第一标注分类信息、第二标注分类信息、第一预测分类信息、第二预测分类信息、第三预测分类信息和第四预测分类信息,确定目标词库,由此,能够提升煤炭行业词库的分类效果。
本发明授权煤炭行业词库分类方法在权利要求书中公布了:1.一种煤炭行业词库分类方法,其特征在于,所述方法包括:获取多个初始词库和长序列文本,在获取所述长序列文本后,利用大模型对所述长序列文本进行关系提炼,以得到字数不大于30的文本,将所述字数不大于30的文本作为短序列文本,其中,所述初始词库包括煤矿井下作业场景词库、和或煤矿变电场景词库,所述长序列文本为行业高水平期刊论文,所述长序列文本具有对应的第一标注分类信息,所述短序列文本具有对应的第二标注分类信息,构建所述初始词库的方式包括:获取初始文本,所述初始文本包括煤炭行业相关的历年期刊和论文,联合煤炭行业场景的场景描述信息,使用正则表达式从所述初始文本中提取初始关键词,删除所述初始关键词中的功能词以得到多个候选关键词,在所述候选关键词的数量大于数量阈值时,将所述候选关键词确定为目标关键词,根据多个所述目标关键词构建所述初始词库;将所述初始词库和所述长序列文本一并输入至第一文本分类模型中,以获取所述第一文本分类模型输出的第一预测分类信息;将所述长序列文本输入至所述第一文本分类模型中,以获取所述第一文本分类模型输出的第二预测分类信息;将所述初始词库和所述短序列文本一并输入至第二文本分类模型中,以获取所述第二文本分类模型输出的第三预测分类信息;将所述短序列文本输入至所述第二文本分类模型中,以获取所述第二文本分类模型输出的第四预测分类信息;根据所述第一标注分类信息、所述第二标注分类信息、所述第一预测分类信息、所述第二预测分类信息、所述第三预测分类信息和所述第四预测分类信息,从多个所述初始词库中确定目标词库;其中,根据所述第一标注分类信息和所述第一预测分类信息确定所述第一预测分类信息的第一分类精度,根据所述第一标注分类信息和所述第二预测分类信息确定所述第二预测分类信息的第二分类精度,根据所述第二标注分类信息和所述第三预测分类信息,确定所述第三预测分类信息的第三分类精度,根据所述第二标注分类信息和所述第三预测分类信息确定所述第四预测分类信息的第四分类精度,根据所述第一分类精度、所述第二分类精度、所述第三分类精度和所述第四分类精度,从多个所述初始词库中确定所述目标词库。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人煤炭科学研究总院有限公司;天地科技股份有限公司北京技术研究分公司,其通讯地址为:100013 北京市朝阳区和平里青年沟东路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。