买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于大模型的数据标准化方法,涉及数据处理技术领域,主要使用思维链、检索增强生成和单样本学习等技术增强大模型处理表格数据的能力,将复杂的数据标准化操作分解为一系列简单且高效的步骤,从而实现半自动化的企业数据标准化转换。本发明充分利用大模型的规划、理解和生成能力,在降低人力成本的同时,显著提升了数据转换的效率。
主权项:1.一种基于大模型的数据标准化方法,其特征在于,包括以下步骤:步骤S1、构建数据标准知识库,首先对数据标准文档进行处理,将这些非结构化的PDF或Word文档转换为更易于检索的键值对形式;步骤S2、检索数据标准,用户与大模型进行交互,根据用户输入的原始数据,获取待标准化的数据列名,并在数据标准知识库中检索与之相关的数据标准;步骤S3、生成正则数据库,将步骤S2获得的相关的数据标准作为大模型的上下文,并为大模型提供一个样例展示,封装为统一的提示模板,利用大模型的上下文学习能力生成符合数据规则的正则表达式,最终形成一个“数据列名:正则表达式”的键值对格式的正则数据库;步骤S4、数据标准化,首先查询待标准化的数据列名所对应的正则表达式,依据该表达式对数据库进行筛选和过滤,然后对非标准数据进行随机采样,以提供样例,并依据思维链的提示方式,将非标准数据、正则表达式和样例一同放入大模型中,引导大模型分析非标准数据的错误原因,完成对应代码的编写和执行,大模型所编写的代码将被保存进记忆单元;步骤S5、迭代式数据标准化,采用迭代式数据清洗方法,将经过步骤S4中一轮标准化转换后的数据再次送回到步骤S4开始,重新筛选和过滤不匹配正则表达式的数据,然后基于重采样的非标准数据,利用大模型对非标准数据进行问题分析,并生成代码,执行数据转换操作,直至最终非标准数据的比例达到指定阈值为止。
全文数据:
权利要求:
百度查询: 郑州埃文科技有限公司 一种基于大模型的数据标准化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。