基于token训练限定大语言模型的数据批量生成方法

导航：龙图腾网> 最新专利技术> 基于token训练限定大语言模型的数据批量生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：玖章算术(浙江)科技有限公司

摘要：本发明涉及一种基于token训练限定大语言模型的数据批量生成方法，能够使得用户可以比较灵活地配置要生成的数据项需求，包括各个数据项的类型、长度、范围、是否允许重复和备注等信息，可以根据用户描述的需求自动构建AI大语言模型可理解的文本交互内容，自动批量生成模拟测试数据。通过面向AI大语言模型的数据生成交互格式，在生成数据过程中增加了二次数据检查能力，可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题，可以一次性生成数百万条以上的数据。提高测试数据的生成效率，避免耽搁时间，同时能够解决数据生成中存在的对话与断点续传问题，确保每次交互生成的数据是有序且符合要求。

主权项：1.一种基于token训练限定大语言模型的数据批量生成方法，用于批量生成测试数据，其特征在于，所述方法包括：S1、基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，为所述上下文提示词配置批次随机启动参数；所述基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，包括：预先定义若干条数据项信息，每条所述数据项信息中包括如下数据项需求内容：数据项名称、类型、长度、取值范围、是否允许重复和数据项描述；将每条所述数据项信息写入结构化数据库中进行保存；利用编程语言读取所述结构化数据库，遍历获得每条所述数据项信息的JSON中间格式数据，并将每条所述数据项信息的JSON中间格式数据进行SQL语言元数据结构转换，生成对应每条所述数据项信息的SQL语言文本，其中：所述SQL语言文本中的不允许重复元素添加有UNIQUEKEY标志，当读取到添加UNIQUEKEY标志的所述数据项信息之时，表明当前数据项不允许重复；遍历完毕，生成所述AI大语言模型交互所需的所述上下文提示词；S2、计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度，并连同所述上下文提示词导入所述AI大语言模型中，进行数据生成并返回数据生成结果；S3、基于二次格式校验的数据项需求检查规则，对所述AI大语言模型返回的所述数据生成结果进行验证，并输出验证合格的所述数据生成结果；S4、循环获取并验证输出所有合格的所述数据生成结果，得到批量测试数据并保存至数据库。

全文数据：

权利要求：

百度查询：玖章算术(浙江)科技有限公司基于token训练限定大语言模型的数据批量生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种便于安装的声屏障

下一篇：一种细胞凋亡检测试剂盒

相关技术

一种便于安装的声屏障

一种细胞凋亡检测试剂盒

一种散热盘管焊缝位置打磨抛光装置

一种预制菜保鲜运输箱

一种分捡操作设备

一种雾化装置

一种轮式翻抛机的箱梁结构

一种新型弹簧操纵装置

一种伸缩万向联轴器

全塑壳防静电吹尘枪

液体加热器具

新型弹簧球铰支座

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于token训练限定大语言模型的数据批量生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务