买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:同方知网数字出版技术股份有限公司
摘要:本申请提供了一种基于学术文献层级标题的指令自动化构建方法和装置、电子设备、存储介质及计算机程序产品,涉及人工智能领域。该方法通过生成式大语言模型对少量层级标题进行标注得到种子数据,然后依托于这些少量标注的种子数据,微调预设的基础大模型;使用微调得到的初始指令预测模型生成未标注层级标题所对应的指令数据,形成候选增强训练数据集合,再用模型评估数据质量,选择高质量数据组合种子数据对初始指令预测模型进行再训练,进一步迭代优化模型;采用迭代微调后的指令预测模型对测试层级标题进行预测,得到预测指令数据,进而确定最终的指令数据集,这些最终的指令数据集语义完整,质量高,能够满足高质量指令数据的需求。
主权项:1.一种基于学术文献层级标题的指令自动化构建方法,其特征在于,包括:从学术文献中解析出多条层级标题及各条层级标题对应的段落文本,其中,各条层级标题包括篇名、父级标题及父级标题对应的一层或多层子标题,且篇名、父级标题及父级标题对应的一层或多层子标题之间采用预设符号隔开;按照设定的过滤条件对多条层级标题进行清洗,得到清洗后的多条层级标题;从清洗后的多条层级标题中选取多条作为目标层级标题,并利用生成式大语言模型对目标层级标题进行引导式重写,生成目标层级标题对应的指令数据,以及将目标层级标题与目标层级标题对应的指令数据构成种子数据;将种子数据作为训练集,对预设的基础大模型进行微调,得到初始指令预测模型;从清洗后的多条层级标题中选取除了目标层级标题之外的多条作为验证层级标题,采用初始指令预测模型为验证层级标题推理出候选指令数据,将验证层级标题与候选指令数据构成候选增强训练数据;使用生成式大语言模型或初始指令预测模型对候选增强训练数据进行打分,根据打分结果确定选定增强训练数据;组合种子数据和选定增强训练数据对初始指令预测模型进行迭代微调,得到迭代微调后的指令预测模型;从清洗后的多条层级标题中选取除了目标层级标题和验证层级标题之外的多条作为测试层级标题,采用迭代微调后的指令预测模型对测试层级标题进行预测,得到预测指令数据;利用预设的向量模型计算测试层级标题对应的预测指令数据与段落文本之间的相似度,进而根据相似度结果从测试层级标题对应的预测指令数据中确定最终的指令数据集。
全文数据:
权利要求:
百度查询: 同方知网数字出版技术股份有限公司 基于学术文献层级标题的指令自动化构建方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。