买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江苏中威科技软件系统有限公司
摘要:本发明提出一种基于OFD的原文标注机器学习方法及装置,以OFD格式作为知识库文件的统一格式,充分利用了OFD文件的功能的优势,充分发挥OFD文件的xml文件包的作用,创新的将训练结果注入到每一个OFD文件的xml文件包中,不但能够将标注精准的绑定在每一个文件中,还能利用OFD文件xml的结构体规则批量的训练其他OFD文件,大大减少用户标注的工作量,以OFD格式作为知识库文件的统一格式,大大的拓展了数据元集的范围,使得标注超越语义,扩展了字体、字号、颜色、正则、结构、位置、格式等范围;本发明使得用户可以直接在OFD文件上进行标注,提高了操作体验度;使得AI的运算结果在需要反向追溯时用户方可以直接看到OFD原文,从而使得结果解释更加直观可信。
主权项:1.一种基于OFD的原文标注机器学习方法,其特征在于,包括以下步骤:步骤S1:上传用于做训练标记的文件,判断其文件格式,并将不同格式的文件转换为OFD文件;步骤S2:设置多维度标准的数据元集,支持多级级联;步骤S3:打开标注阅读器,并加载选中OFD文件,渲染文件,并在内存中预先加载设置的多级数据元集;步骤S4:打开OFD原文,在OFD原文中选中文件中的内容,匹配对应的数据项,并记录标记内容、标签数据项、格式、位置等一系列内容的信息;步骤S5:将记录的标记信息生成数据,以xml的格式加载在OFD的拓展文件中,生成带有训练模型的OFD文件;步骤S6:使用阅读器打开OFD文件,并展示标注内容的信息,并通过标注的要素,点击跳转到原文的位置中;步骤S7:将OFD文件批量导入到训练模型中对模型文件进行训练;步骤S8:将新的OFD文件输入到模型中,自动学习,提取训练的要素内容,生成一个新的xml包,将标注的xml包整合到OFD文件中。
全文数据:
权利要求:
百度查询: 江苏中威科技软件系统有限公司 一种基于OFD的原文标注机器学习方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。