买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军军事科学院军事科学信息研究中心
摘要:本发明属于数据集构建技术领域,公开了一种指令微调数据集构建方法及装置,方法包括:利用给定的某一领域的半结构化数据集,通过基于思维链的上下文提示学习方法,构建原始指令微调数据集;从原始指令微调数据集中抽取样本对基础大语言模型进行初步训练,获得简要预经验大语言模型;使用简要预经验大语言模型对原始指令微调数据集中的所有问答对进行质量评估,基于质量评估结果筛选优化原始指令微调数据集,获得最终的指令微调数据集。通过原始问答微调数据集生成、预经验大语言模型训练和问答对质量评估三个步骤,实现知识问答数据的敏捷、高质量构建。可以有效提升指令微调数据构建的效率,同时保证数据的质量。
主权项:1.一种指令微调数据集构建方法,包括:步骤1:利用给定的某一领域的半结构化数据集,通过基于思维链的上下文提示学习方法,构建原始指令微调数据集,其中,指令微调数据集中的每一指令微调数据包括问题、问答提示和答案;步骤2:从原始指令微调数据集中抽取样本对基础大语言模型进行初步训练,获得简要预经验大语言模型,其中,抽取的样本能够覆盖多种问题场景和相应的答案;步骤3:使用简要预经验大语言模型对原始指令微调数据集中的所有问答对进行质量评估,基于质量评估结果筛选优化原始指令微调数据集,获得最终的指令微调数据集。
全文数据:
权利要求:
百度查询: 中国人民解放军军事科学院军事科学信息研究中心 一种指令微调数据集构建方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。