首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种工业图纸表格结构化识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:海默潘多拉数据科技(深圳)有限公司

摘要:本发明公开了一种工业图纸表格结构化识别方法,首先获取工业图纸的原始图片数据,对形成的RGB图片伽马纠正后使用标注工具进行内容选取,得到若干矩形标记区,最后根据每个矩形标记区的坐标位置,对其中的文字或符号进行二维排序;其对应的系统包括依次设置的图纸数据分析模块,算法分析模块和数据结构化模块。采用本发明的显著效果是,实现了工程图纸的数据结构化和在线化;实现了数字化管理和转型;实现了自动化生产的参数配置、结果校对和生产管控;适用于多种场景的图纸文字识别和符号识别,多种场景的操作系统实时结构化输出,检验文件的快速编制和结果录入和工艺参数和生产工具的自动录入。

主权项:1.一种工业图纸表格结构化识别方法,其特征在于按以下步骤进行:步骤一、获取工业图纸的原始图片数据,形成统一的RGB图片;步骤二、对所述RGB图片进行伽马纠正,以调节所述RGB图片的对比度,优化所述RGB图片的清晰度;步骤三、使用标注工具对优化后的所述RGB图片的内容进行选取,得到若干矩形标记区,根据每个矩形标记区所含的内容进行符号和非符号检测分类;1、通过HTTP协议在OSS数据库中读取一份PDF文件到变量函数;2、将PDF文件通过光栅和矢量交换方式转为数组后传输给图像矩阵;3、将图像数据进行编码后通过图像构造方法实现转为RGB图像的JPG图片;4、分别对含有特殊符号和正常符号的工业图纸图片进行交互式标注;5、采用VOCdevkit格式数据进行标准训练;6、基于TCR模型针对工业图表数据进行通道增强实现分层和滤波降低背景干扰;7、基于TCR模型使用的Apex混合精度训练和SymBM简化模型训练难度,提高准确率;8、针对多模态图纸图片出现的干扰采用BezierAlign层对细粒度区域实现ROIAlign找到细小的区域并且将其掩码取外接矩形最大值的预测值;得到的文字区域建议框通过类型分析识别对正常采用直接识别,针对异常的情况采用细粒度的识别对小目标进行排序然后再按照排序的逻辑进行邻接排序后进行识别输出结果,针对输出的结果进行人机交互式评估后确定;9、采用半精度apex训练方法训练模型,针对多端采用半精度、slim和purne方法模型识别加速;10、将训练好的模型通过RPC协议通信与数据和相关服务算法进行链接交互;11、输入需要测试图像数据,预测结果的标签、返回结果的参数的名称返回存入日志;步骤四、对每个所述矩形标记区进行特征提取,获取其中的图表内容,得到对应的文字或符号;步骤五、在同一坐标系下,根据每个所述矩形标记区的坐标位置,按坐标位置对与其相关联的文字或符号使用邻接矩阵编码的方式进行二维排序,排序后的图表内容通过字典关联的内存映射表记录在具体的表格中,得到可编辑图纸表格文档;基于同一坐标系获取每个所述矩形标记区的左上角和右下角的坐标值,并且进行聚类分析以实现在算法定位过程优化;初始化k个样本,作为初始化的聚类中心为a,a=a1,a2,......ak,对于每个样本xi,采用欧几里得距离,针对每个类别的ai重新计算每个类别的聚类中心均值为上式中N为样本数量;aj为算法更新后每个样本的坐标均值中心坐标;ci表示聚类中心的值;xi为输入点簇的数据点。

全文数据:

权利要求:

百度查询: 海默潘多拉数据科技(深圳)有限公司 一种工业图纸表格结构化识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术