首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度学习模型接处警文本户籍地信息提取方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京明亿科技有限公司

摘要:本公开实施例公开了基于深度学习模型接处警文本户籍地信息提取方法和装置。该方法的一具体实施方式包括:获取待提取户籍地信息接处警文本;对上述待提取户籍地信息接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下户籍地信息分类操作:将该分词对应的词向量输入户籍地信息分类模型,得到该分词是否为户籍地信息的分类结果,其中,上述户籍地信息分类模型是基于深度学习模型预先训练得到的;根据上述分词序列中相应的分类结果为用于指示是户籍地信息的各分词确定上述待提取户籍地信息接处警文本对应的户籍地信息集合。该实施方式实现了自动提取接处警文本中的户籍地信息。

主权项:1.一种基于深度学习模型的接处警文本户籍地信息提取方法,包括:获取待提取户籍地信息接处警文本;对所述待提取户籍地信息接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下户籍地信息分类操作:确定该分词对应的词向量,该分词对应的词向量包括N维分量,其中,N为正整数,且上述N维分量中的各维分量分别与预设词典的各词语一一对应;将该分词对应的词向量输入户籍地信息分类模型,得到该分词是否为户籍地信息的分类结果,其中,所述户籍地信息分类模型是基于深度学习模型预先训练得到的;根据所述分词序列中相应的分类结果为用于指示是户籍地信息的各分词确定所述待提取户籍地信息接处警文本对应的户籍地信息集合;所述基于深度学习模型的户籍地信息分类模型是通过如下训练步骤预先训练得到的:获取训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列,其中,标注信息用于指示分词序列中相应分词是否为户籍地信息;将所述训练样本集合中相应分词序列包括户籍地信息分词的各训练样本确定为正样本集合,其中,户籍地信息分词为分词序列中相应的标注信息指示该分词为户籍地信息的分词;根据所述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量;其中,设预设词典中包括N个词语,其中,N为正整数,则该正样本的文本特征向量包括N维分量,且上述N维分量中的各维分量分别与预设词典的各词语一一对应;以所述正样本集合中正样本的文本特征向量作为输入,以用于指示是户籍地信息的分类结果作为相应期望输出,训练初始深度学习模型,得到所述户籍地信息分类模型;所述训练初始深度学习模型,得到所述户籍地信息分类模型包括:首先,确定初始深度学习模型的模型结构,初始深度学习模型包括以下至少一项:卷积神经网络、循环神经网络、长短期记忆网络、条件随机场;其次,确定初始深度学习模型所包括的模型参数的初始值;最后,针对正样本集合中的正样本,执行参数调整操作,直到满足预设训练结束条件,上述参数调整操作包括:将该正样本的文本特征向量输入初始深度学习模型得到相应的实际输出结果,再计算上述所得到的实际输出结果和用于指示是户籍地信息的分类结果之间的差异,并基于所得到的差异调整上述初始深度学习模型的模型参数;这里,训练结束条件包括以下至少一项:执行参数调整操作的次数达到预设最多训练次数,计算得到的差异小于预设差异阈值;经过上述参数调整操作,初始深度学习模型的模型参数得到优化,将上述参数优化之后的初始深度学习模型确定为户籍地信息分类模型;所述训练步骤还包括:将预设负样本特征向量输入所述户籍地信息分类模型得到相应实际输出结果;根据所得到的实际输出结果和用于指示不是户籍地信息的分类结果之间的差异调整所述户籍地信息分类模型的模型参数;所述根据所述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量,包括:对于所述正样本集合中的每个正样本,执行以下向量生成及赋值操作:生成与该正样本对应的文本特征向量,其中,所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应;对于该正样本的分词序列中的每个户籍地信息分词,将所生成的文本特征向量中与该户籍地信息分词对应的分量设置为该户籍地信息分词的词频-逆文本频率指数TF-IDF;以及将所生成的文本特征向量中的各未赋值分量设置为预设数值,未赋值分量为属于所述预设词典但不属于该正样本的分词序列中的各户籍地信息分词的词语对应的分量。

全文数据:

权利要求:

百度查询: 北京明亿科技有限公司 基于深度学习模型接处警文本户籍地信息提取方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。