买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:玖章算术(浙江)科技有限公司
摘要:本发明涉及一种基于token训练限定大语言模型的数据批量生成方法,能够使得用户可以比较灵活地配置要生成的数据项需求,包括各个数据项的类型、长度、范围、是否允许重复和备注等信息,可以根据用户描述的需求自动构建AI大语言模型可理解的文本交互内容,自动批量生成模拟测试数据。通过面向AI大语言模型的数据生成交互格式,在生成数据过程中增加了二次数据检查能力,可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题,可以一次性生成数百万条以上的数据。提高测试数据的生成效率,避免耽搁时间,同时能够解决数据生成中存在的对话与断点续传问题,确保每次交互生成的数据是有序且符合要求。
主权项:1.一种基于token训练限定大语言模型的数据批量生成方法,用于批量生成测试数据,其特征在于,所述方法包括:S1、基于用户自定义的数据项信息,为AI大语言模型构建交互所需的上下文提示词,为所述上下文提示词配置批次随机启动参数;所述基于用户自定义的数据项信息,为AI大语言模型构建交互所需的上下文提示词,包括:预先定义若干条数据项信息,每条所述数据项信息中包括如下数据项需求内容:数据项名称、类型、长度、取值范围、是否允许重复和数据项描述;将每条所述数据项信息写入结构化数据库中进行保存;利用编程语言读取所述结构化数据库,遍历获得每条所述数据项信息的JSON中间格式数据,并将每条所述数据项信息的JSON中间格式数据进行SQL语言元数据结构转换,生成对应每条所述数据项信息的SQL语言文本,其中:所述SQL语言文本中的不允许重复元素添加有UNIQUEKEY标志,当读取到添加UNIQUEKEY标志的所述数据项信息之时,表明当前数据项不允许重复;遍历完毕,生成所述AI大语言模型交互所需的所述上下文提示词;S2、计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度,并连同所述上下文提示词导入所述AI大语言模型中,进行数据生成并返回数据生成结果;S3、基于二次格式校验的数据项需求检查规则,对所述AI大语言模型返回的所述数据生成结果进行验证,并输出验证合格的所述数据生成结果;S4、循环获取并验证输出所有合格的所述数据生成结果,得到批量测试数据并保存至数据库。
全文数据:
权利要求:
百度查询: 玖章算术(浙江)科技有限公司 基于token训练限定大语言模型的数据批量生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。