大语言模型安全对齐训练方法、装置、电子设备及介质

导航：龙图腾网> 最新专利技术> 大语言模型安全对齐训练方法、装置、电子设备及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：清华大学;OPPO广东移动通信有限公司

摘要：本发明提供一种大语言模型安全对齐训练方法、装置、电子设备及介质，涉及人工智能领域。该方法包括：收集有害数据集并添加到训练数据中，有害数据集中的每个元素包括有害问题及与有害问题对应的有害回答；统计目标大语言模型被训练前生成有害问题生成对应的有害回答的概率；利用训练数据对目标大语言模型进行迭代训练；在每轮迭代完成后统计目标大语言模型生成有害问题及对应的有害回答的概率；基于统计的概率计算第一损失；利用第一损失的梯度对目标大语言模型的参数进行优化，并返回利用训练数据对目标大语言模型进行迭代训练的步骤直至迭代训练完成。本发明的方案能够让大语言模型充分遗忘有害知识，提升模型泛化能力。

主权项：1.一种大语言模型安全对齐训练方法，其特征在于，所述方法包括：收集有害数据集并添加到训练数据中，所述有害数据集中的每个元素包括有害问题及与有害问题对应的有害回答；统计目标大语言模型被训练前生成所述有害数据集中有害问题生成对应的有害回答的概率，得到第一概率；利用所述训练数据对所述目标大语言模型进行迭代训练；在每轮迭代完成后统计当前目标大语言模型生成所述有害数据集中有害问题及对应的有害回答的概率，得到第二概率；基于所述第一概率和所述第二概率计算第一损失；利用所述第一损失的梯度对所述目标大语言模型的参数进行优化，并返回所述利用所述训练数据对目标大语言模型进行迭代训练的步骤，直至迭代训练完成。

全文数据：

权利要求：

百度查询：清华大学 OPPO广东移动通信有限公司大语言模型安全对齐训练方法、装置、电子设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种竹浆纸制备用破碎分削切片装置

下一篇：一种粗氨气净化及制取液氨的装置及方法

相关技术

一种竹浆纸制备用破碎分削切片装置

一种粗氨气净化及制取液氨的装置及方法

一种内陆区域地下水封洞设计水位的确定方法

储能变流器及储能系统

超临界CO₂腐蚀测试系统的样品加载装置

一种炉头自动生产线及其工艺

一种精密铜铝铸件切割装置

ZnO/石墨烯复合材料、Zn杂化石墨烯阻燃环氧丙烯酸酯涂层及制备方法

App自测试系统、方法、电子设备及存储介质

一种玻璃瓶裂纹检测装置

印制电路板、器件焊接检测方法、装置及电子设备

一种放射性同位素碳-14标记的巴德卡鲁胺及其制备方法和应用

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

大语言模型安全对齐训练方法、装置、电子设备及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务