北京荣大科技股份有限公司何家邦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京荣大科技股份有限公司申请的专利一种基于文档图像分布变化的细粒度分析获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116166802B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310126162.9,技术领域涉及:G06F16/35;该发明授权一种基于文档图像分布变化的细粒度分析是由何家邦;徐行设计研发完成,并于2023-02-16向国家知识产权局提交的专利申请。
本一种基于文档图像分布变化的细粒度分析在说明书摘要公布了:本发明提供一种基于文档图像分布变化的细粒度分析,涉及跨模态理解与迁移学习中的文档理解领域。该基于文档图像分布变化的细粒度分析,其开发了一个名为Do‑GOOD的分布外OOD基准,用于对文档图像相关任务的细粒度进行分析,所述Do‑GOOD基准定义了导致不同分布转移的底层机制,分别是特定的图像分布变化,特定的文本分布变化。本发明中,能够从图像、文本和布局的角度对文档图像的各种分布变化进行了细粒度分析,能够更详细的进行分析处理,在不同的文档图像任务中评估和比较生成的OOD测试中的5个最先进的预训练VDU模型和2个常见的OOD算法,并且其提出的Do‑GOOD基准、实证研究和深入分析将有利于未来的研究,以提高预训练VDU模型的稳健性。
本发明授权一种基于文档图像分布变化的细粒度分析在权利要求书中公布了:1.一种基于文档图像分布变化的细粒度分析,其特征在于,其开发了一个名为Do-GOOD的分布外OOD基准,用于对文档图像相关任务的细粒度进行分析,所述基准定义了导致不同分布转移的底层机制,分别是特定的图像分布变化,特定的文本分布变化,特定的布局分布变化,并且包含9个OOD数据集,涵盖3个文档图像相关任务,分别是文档视觉信息提取任务,文档视觉分类任务,文档视觉问答任务;评估了视觉文档图像理解模型的鲁棒性,并在这些OOD数据集上对5个现有的VDU预训练模型和2个常见的OOD泛化算法进行细粒度分析; 所述Do-GOOD的分布外OOD基准,现有的数据集,在分布内假设下准备训练和测试样本;给定训练输入x的数据分布ptrain,文档图像理解模型f的目标是使风险最小化,如下所示: 其中,是特定任务的损失函数;由于数据收集过程中的选择偏差和随机数据分割混杂因素,在实践中,训练数据和测试数据很难遵循相同的数据分布;由于训练数据和测试数据的分布是不同的,在训练数据上训练的模型有望很好地泛化到测试数据; 所述特定的图像分布变化,图像分布偏移有两种背景变体:自然图像背景和失真图像背景;形式上,yimage用有限集定义图像;对于训练,yimage属性是原始的;在对具有自然图像背景的非分布数据进行测试时,设置属性yimage=ynatural,得到属性pnaturaly1:K的边际分布,用于诱导潜在因子与属性的联合分布 pnaturalz,y1:K=pz|y1:Kpnaturaly1:K, 随后,得到用于检验的输入数据,其联合分布为: pnaturalx,y1:K=∫px|zpnaturalz,y1:K, 另一方面,参考生成自然图像的测试数据的方法推导出背景为失真图像pdistortedz,y1:K的非分布测试集; 所述特定的文本分布变化,即输入文档图像可能包含由OCR错误引起的有问题的文本,对文本分布偏移采用了两种文本攻击策略1Bert-Attack;2Word-Swap;形式上,ytext用有限集定义文本;对于训练,属性ytext是原始的;基于特定的图像分布变化OOD基准测试的分析,获得BERT-Attackpgenerationx,y1:K和Word-Swappswapx,y1:K的分布外测试数据; 所述特定的布局分布变化,布局分布移位有两种布局操作:合并和移动;merge操作旨在研究在保持图像和文本信息的同时,将布局信息从细粒度级别更改为粗粒度级别的影响;move操作用于研究通过将内容移动到不同的位置的影响,使特定包围框的内容上的相邻信息生效;形式上,ylayout用有限集定义布局;对于训练,ylayout属性是原始的;基于对图像特定OOD和文本特定OOD基准的分析,同样得到merge操作pmergex,y1:K的OOD测试数据和Move操作pswapx,y1:K的OOD测试数据; 所述文档视觉信息提取任务,主要基于FUNSD生成OOD数据集;FUNSD是从RVL-CDIP数据集中采样的关于噪声扫描表单理解的数据集,由199个文档和9743个语义实体组成,其中文档中149个用于训练,50个用于测试; 所述文档视觉分类任务,使用基于RVL-CDIP生成OOD数据集,RVL-CDIP是一个文档分类数据集,用于预测给定文档的类别,包括16个类别的40万个数据示例,分为32万个训练样本、4万个验证样本和4万个测试样本; 所述文档视觉问答任务,使用基于DocVQA生成OOD数据集,DocVQA是一个数据集用于预测给定文档图像和问题的答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京荣大科技股份有限公司,其通讯地址为:100070 北京市丰台区南四环西路188号五区29号楼5层501室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励