Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习的核电厂多格式文件结构化方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中核武汉核电运行技术股份有限公司;核动力运行研究所

摘要:本发明公开了一种对核电厂的多格式文件的进行结构化处理的方法及系统,包括以下步骤:从核电厂存储文件的服务器上获取需要进行结构化的文件,构成文件集合D;利用文件模型内容提取模块,遍历集合D中所有的文件,根据文件的后缀名选择合适的处理方式,将文件中的内容提取出来,并转化成文本文件的格式,同时保持其中段落间的关系,其中的图片和表格数据均用对应的标题进行替代,由此构成文本文件集合D′;其有益效果在于:利用计算机技术和深度学习算法,针对大量的核电厂文件进行结构化处理,不仅方便了文件的检索和利用,减少了人工成本,同时为文件的保密带来了保障。

主权项:1.一种对核电厂的多格式文件的进行结构化处理的方法,其特征在于,包括以下实施步骤:步骤001:从核电厂存储文件的服务器上获取需要进行结构化的文件,构成文件集合D;步骤002:利用文件内容提取模块,遍历集合D中所有的文件,根据文件的后缀名选择合适的处理方式,将文件中的内容提取出来,并转化成文本文件的格式,同时保持其中段落间的关系,其中的图片和表格数据均用对应的标题进行替代,由此构成文本文件集合D′;步骤003:利用文件内容分段模块,对集合D′中的每一个文本文件进行遍历,将其中的标题和段落分别划分成一个独立的文本数据单元,并将其保存到文本文件中,得到集合T,同时将每个文件中段落与段落、标题之间的顺序记录在对应的CSV文件中得到集合T′;步骤004:根据集合T中的记录,利用训练好的word2vetor模型将集合T中的每一个独立的文本数据单元转换成对应的固定长度的词向量,并根据集合T′中对应文件中各个文本数据单元的排列顺序,将词向量存储到相应的CSV文件中,得到集合V;步骤005:将集合V中的词向量作为输入,利用深度学习算法TextCNN对输入的词向量进行分类,确定对应的文本数据属于标题、段落、图、表格中的哪一种,过程如下:1从V中选取一个CSV文件,并从集合T′中选取对应的CSV文件,按顺序将一组n个词向量的集合X={x1,x2,...,xn}传入TextCNN算法中,其中xi是一个长度为k的数值类型向量;2TextCNN首先利用卷积,对一组数值类型的词向量进行计算,得到一组特征图集合F={f1,f2,...,fi,...,fn-h+1},其中h表示卷积核的纵向长度,其中fi表示一个特征图;3对每个特征图进行全局最大池化计算,得到一个特征向量其中ci表示一个特征值;4利用全连接层和softmax层,计算出词向量对应的分类概率值最大的分类,并输出各个词向量的类别预测结果;步骤006:根据TextCNN算法的计算结果,确定对应词向量的分类,然后同一个文件中的所有词向量进行同样的操作并按顺序记录在对应的CSV文件中;步骤007:对集合v中每一个文件进行上述步骤的操作,直到集合v中所有文件中的词向量都确定分类为止,由此得到记录分类结果的CSV文件集合R;步骤008:根据集合R和xml文件的语法格式,利用结构化文件生成模块对集合D中的文件构建xml格式的结构化文件。

全文数据:

权利要求:

百度查询: 中核武汉核电运行技术股份有限公司 核动力运行研究所 一种基于深度学习的核电厂多格式文件结构化方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。