买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学技术大学
摘要:本发明公开了直接偏好优化模型构建方法、装置、电子设备及存储介质,所述方法包括:所述直接偏好优化模型构建方法包括:获取微调的初始模型;为所述初始模型选用uDPO框架并设置uDPO的超参数,得到目标函数;根据所述目标函数生成目标模型。通过构建uDPO框架,在uDPO中引入新的超参数,实现了对数据对可靠性的细粒度控制,从而在噪声环境下提供了更加平衡的探索与利用策略。其次,uDPO在保持DPO对点噪声固有鲁棒性的同时,通过优化最坏成对场景,显著提升了模型对抗成对噪声的能力,相较于DPO无论是在噪声还是无噪声的数据集上,均能实现性能的显著提升,具有DPO对抗点噪声的能力的同时具有对抗成对噪声的能力。
主权项:1.一种直接偏好优化模型构建方法,其特征在于,所述模型构建方法包括:获取微调的初始模型,所述初始模型为pythia-2.8B开源模型;为所述初始模型选用uDPO框架并设置uDPO的超参数,得到目标函数,uDPO框架与标准DPO框架相同;获取微调的初始模型包括:利用无噪声数据集对所述初始模型微调;利用无噪声数据集中正样本以及MLE损失函数对所述初始模型进行训练,得到无噪声数据集语料的预测性能以及初始模型训练数据噪声水平;为所述初始模型选用uDPO框架并设置uDPO的超参数,得到目标函数包括:获取uDPO框架;设置uDPO的超参数;得到目标函数,所述目标函数的表达式如下: ;其中,是数据点的对数似然目标函数,是拉格朗日因子即超参数,表示三元组数据;其中,表示用户查询,表示用户选择的回答,表示用户拒绝的回答;数据点的对数似然目标函数如下: ;根据所述目标函数生成目标模型。
全文数据:
权利要求:
百度查询: 中国科学技术大学 直接偏好优化模型构建方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。