首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于正则表达式的处警警情类别确定方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京明亿科技有限公司

摘要:本公开实施例公开了基于正则表达式的处警警情类别确定方法和装置。该方法的一具体实施方式包括:获取待分类处警文本;对于预设处警警情类别集合中的每个处警警情类别,确定待分类处警文本是否与该处警警情类别对应的正则表达式匹配;用预设处警警情类别集合中的各目标处警警情类别生成待分类处警文本对应的处警警情类别集合,其中,待分类处警文本与目标处警警情类别对应的正则表达式匹配。该实施方式实现了自动对处警文本进行处警警情分类。

主权项:1.一种基于正则表达式的处警警情类别确定方法,包括:获取待分类处警文本;对于预设处警警情类别集合中的每个处警警情类别,确定所述待分类处警文本是否与该处警警情类别对应的正则表达式匹配;用所述预设处警警情类别集合中的各目标处警警情类别生成所述待分类处警文本对应的处警警情类别集合,其中,所述待分类处警文本与目标处警警情类别对应的正则表达式匹配;所述预设处警警情类别集合中的每个处警警情类别对应至少一个正则表达式;以及所述预设处警警情类别集合中每个处警警情类别对应的正则表达式是通过如下第一训练步骤预先训练得到的:获取训练样本集合和测试样本集合,其中,训练样本和测试样本均包括历史处警文本和对应的标注警情类别集合;对于所述预设处警警情类别集合中的每个处警警情类别,执行以下第一正则表达式确定操作:将所述训练样本集合中对应的标注警情类别集合包括该处警警情类别的各训练样本中的历史处警文本确定为该处警警情类别对应的正样本集合;对于预设候选正则表达式数目集合中的候选正则表达式数目N,执行N个候选正则表达式生成操作以生成与该处警警情类别对应的N个候选正则表达式,以及基于所述测试样本集合对所生成的N个候选正则表达式进行测试以确定与候选正则表达式数目N对应的准确率;将所生成的最优正则表达式数目个候选正则表达式确定为与该处警警情类别对应的正则表达式,其中,所述最优正则表达式数目为所述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,所述N个候选正则表达式生成操作包括:根据该处警警情类别对应的正样本集合中各正样本的文本长度,将该处警警情类别对应的正样本集合分成N个正样本子集合,以及基于所得到的每个正样本子集合,生成与该正样本子集合对应的候选正则表达式;所述根据该处警警情类别对应的正样本集合中各正样本的文本长度,将该处警警情类别对应的正样本集合分成N个正样本子集合,包括:将第一长度减去第二长度的差确定为编辑长度,其中,所述第一长度为该处警警情类别对应的正样本集合中各正样本的文本长度中的最长文本长度,所述第二长度为该处警警情类别对应的正样本集合中各正样本的文本长度中的最短文本长度;将对所述编辑长度除以N的商向上取整所得的整数确定为子集合文本长度差;对于该处警警情类别对应的正样本集合中的每个正样本,执行以下分组操作:将该正样本的文本长度减去所述第二长度的差确定为D;将对D除以所述子集合文本长度差的商向上取整所得的正整数确定为I;将该正样本分到第I个正样本子集合,其中,I为1到N之间的正整数。

全文数据:

权利要求:

百度查询: 北京明亿科技有限公司 基于正则表达式的处警警情类别确定方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。