买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京明亿科技有限公司
摘要:本公开提供了基于正则表达式的作案手段识别方法与装置、设备及介质。该方法的一具体实施方式包括:获取待识别接处警文本;确定待识别接处警文本对应的文本片段集合;对于文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定作案手段识别正则表达式集合中与该文本片段对应的作案手段识别正则表达式;响应于确定该文本片段与所确定的作案手段识别正则表达式匹配,将该文本片段确定为作案手段描述文本;用文本片段集合中确定为作案手段描述文本的各文本片段生成与待识别接处警文本对应的作案手段描述文本集合。该实施方式实现了自动识别接处警文本中的作案手段描述文本。
主权项:1.一种基于正则表达式的作案手段识别方法,包括:获取待识别接处警文本;确定所述待识别接处警文本对应的文本片段集合,其中,文本片段属于所述待识别接处警文本;对于所述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定作案手段识别正则表达式集合中与该文本片段对应的作案手段识别正则表达式,其中,每个作案手段识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的作案手段识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的作案手段识别正则表达式匹配,将该文本片段确定为作案手段描述文本;用所述文本片段集合中确定为作案手段描述文本的各文本片段生成与所述待识别接处警文本对应的作案手段描述文本集合;所述作案手段识别正则表达式集合是通过如下训练步骤预先训练得到的:获取历史作案手段描述文本片段集合和测试样本集合,其中,历史作案手段描述文本片段用于描述作案手段,测试样本包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述作案手段的标注信息;对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M个候选正则表达式生成操作以生成M个候选正则表达式,以及基于所述测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率,其中,所述M个候选正则表达式生成操作包括:根据所述历史作案手段描述文本片段集合中各历史作案手段描述文本片段的文本长度,将所述历史作案手段描述文本片段集合划分成M个历史作案手段描述文本片段子集合,以及基于所得到的每个历史作案手段描述文本片段子集合,生成与该历史作案手段描述文本片段子集合对应的候选正则表达式;将所生成的最优正则表达式数目个候选正则表达式确定为所述作案手段识别正则表达式集合,其中,所述最优正则表达式数目为所述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,所述作案手段识别正则表达式集合中每个作案手段识别正则表达式对应的文本长度范围为生成该作案手段识别正则表达式所基于的历史作案手段描述文本片段子集合中的各历史作案手段描述文本片段的文本长度对应的文本长度范围;所述根据所述历史作案手段描述文本片段集合中各历史作案手段描述文本片段的文本长度,将所述历史作案手段描述文本片段集合划分成M个历史作案手段描述文本片段子集合,包括:将第一长度减去第二长度的差确定为编辑长度,其中,所述第一长度为所述历史作案手段描述文本片段集合中各历史作案手段描述文本片段的文本长度中的最长文本长度,所述第二长度为所述历史作案手段描述文本片段集合中各历史作案手段描述文本片段的文本长度中的最短文本长度;将对所述编辑长度除以M的商向上取整所得的整数确定为该候选正则表达式数目M对应的子集合文本长度差;对于所述历史作案手段描述文本片段集合中的每个历史作案手段描述文本片段,执行以下分组操作:将该历史作案手段描述文本片段的文本长度减去所述第二长度的差确定为D;将对D除以该候选正则表达式数目M对应的子集合文本长度差的商向上取整所得的正整数确定为I;将该历史作案手段描述文本片段分到第I个历史作案手段描述文本片段子集合,其中,I为1到M之间的正整数。
全文数据:
权利要求:
百度查询: 北京明亿科技有限公司 基于正则表达式的作案手段识别方法与装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。