Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于改进Jieba分词的配电网检修文本信息提取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司

摘要:本发明涉及一种基于改进Jieba分词的配电网检修文本信息提取方法,包括以下步骤:步骤1、分析配电网巡检文本特征;步骤2、对配电网巡检文本进行清洗;步骤3、形成电力巡检文本关键词表;步骤4、利用TF‑IDF算法对步骤3所形成的电力巡检文本关键词表进行完善;步骤5、将步骤4中利用TF‑IDF算法获得完善后的电力巡检文本关键词表加载至Jieba词典,完成Jieba词典中关键词表与停用词表的更新。本发明能够根据配电网检修记录文本数据特点,利用TF‑IDF算法识别电力领域专有词汇,完善Jieba词库,进而实现配电网巡检记录的文本有效分词。

主权项:1.一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:包括以下步骤:步骤1、分析配电网巡检文本特征;步骤2、根据步骤1的配电网巡检文本特征,对配电网巡检文本进行清洗;步骤3、基于所述步骤2数据清洗之后的配电网巡检文本,利用Jieba分词工具进行一次分词,统计词频并形成电力巡检文本关键词表;步骤4、针对配电网巡检文本,利用TF-IDF算法对步骤3所形成的电力巡检文本关键词表进行完善;步骤5、将步骤4中利用TF-IDF算法获得完善后的电力巡检文本关键词表加载至Jieba词典,完成Jieba词典中关键词表与停用词表的更新;所述步骤1的配电网巡检文本特征包括:1巡检文本结构不一致;2巡检文本长度有差别;3巡检文本包含特殊意义字符;4巡检文本部分词汇重复度高。所述步骤2的具体步骤包括:1删除重复记录,减少不同人员书写习惯不同造成的差异;2删除空白记录,缩小部分文本的无效长度;3删除文本中含有的标点符号;4删除无意义词汇;所述步骤3的具体步骤包括:1通过Jieba一次分词,抽样出部分原始文本与其分词数据,观察识别分词结果;2对比原始的文本,提取出错分的词,构造成关键词表;3对分词文本进行数值上的统计;4最后,将统计得到的高频词加入到关键词表中,通过Jieba分词,建立电力巡检文本关键词表;所述步骤4的具体步骤包括:1计算TFTF表示某个电力词汇在整篇文章中出现的概率,其计算公式为: 其中,nij为配电网巡检特征词在文中出现的次数,∑knkj则是文本中所有特征词的个数;TFij计算的结果即为某个电力特征词的词频;2计算IDFIDF表示逆向文本频率,其计算公式为: 其中,N表示语料库中全部文章的数量,1+Npower表示文章中具有明显特征的词语power的数量,为防止该词语在语料库中不存在,即分母为0,使用1+Npower作为分母,IDFij表示逆向文本频率;3计算TF-IDF其计算公式为:TF-IDFij=TFij·IDFij3TF-IDF的值是由词频TFij和逆向文本词频IDFij的乘积得到的,TF-IDF的值越大,表示该电力特征词对这个文本的重要性越大;4利用TF-IDF算法进行关键词提取后,形成完善后的电力巡检文本关键词表,并完善Jieba词库,提高Jieba词典在电力领域的分词能力;所述步骤5的具体步骤包括:1Jieba分词基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;2采用动态规划查找语料库与关键词表的最大概率路径,找出基于词频的最大切分组合;3通过更新后的词表,重新使用Jieba进行分词,保证词表中的词都能被正确分类,提高针对电力词汇的识别切分准确率。

全文数据:

权利要求:

百度查询: 国网天津市电力公司电力科学研究院 国网天津市电力公司 国家电网有限公司 基于改进Jieba分词的配电网检修文本信息提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。