北京百川智能科技有限公司阎栋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京百川智能科技有限公司申请的专利训练奖励模型的方法、装置、设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118152798B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311865743.0,技术领域涉及:G06F18/214;该发明授权训练奖励模型的方法、装置、设备和存储介质是由阎栋;李佳莲;马路遥设计研发完成,并于2023-12-29向国家知识产权局提交的专利申请。
本训练奖励模型的方法、装置、设备和存储介质在说明书摘要公布了:本公开的实施例提供了一种训练奖励模型的方法、装置、设备和计算机可读存储介质。该方法通过基于包括分类粒度呈递减关系的多级分类来获取提示指令以平衡大语言模型的类别分布,并针对每个提示指令生成多种提示响应来平衡大语言模型的结果多样性分布,其中所生成的提示响应可以涵盖包括基准提示响应、不同的语言模型生成的提示响应、大语言模型在不同训练阶段生成的提示响应、以及通过不同温度系数控制的提示响应等的各种提示响应,以基于这些提示响应来对奖励模型进行训练,使得奖励模型对较优的提示响应的打分与对较差的提示响应的打分之间的差距最大化,从而生成经训练的奖励模型,提升奖励模型的泛化性。
本发明授权训练奖励模型的方法、装置、设备和存储介质在权利要求书中公布了:1.一种训练奖励模型的方法,所述奖励模型与大语言模型相关联,所述方法包括:基于多级分类系统,获取提示指令集合,其中,所述提示指令集合中的每个提示指令为文本序列,所述多级分类系统包括分类粒度呈递减关系的多级分类;针对所述提示指令集合中的每个提示指令,收集多个提示响应,其中,每个提示响应为文本序列,所述多个提示响应包括以下中的至少两项:不同的语言模型基于所述提示指令生成的提示响应;所述大语言模型基于所述提示指令在不同训练阶段生成的提示响应,包括所述大语言模型基于所述提示指令在经过监督微调后生成的提示响应、所述大语言模型基于所述提示指令在强化学习期间生成的提示响应、以及所述大语言模型在经过强化学习后生成的提示响应;以及所述大语言模型在不同的温度系数的控制下基于所述提示指令生成的提示响应,所述温度系数用于控制所述大语言模型生成的提示响应的多样性;针对所述提示指令集合中的每个提示指令,基于与所述提示指令相对应的多个提示响应,构建多个提示响应对;以及基于与所述提示指令集合相关联的所有提示响应对,通过使所述奖励模型对每个提示响应对中的较优提示响应的打分与对所述提示响应对中的较差提示响应的打分之间的差距最大化,对所述奖励模型进行训练,其中,所述提示响应对中的所述较优提示响应和所述较差提示响应是通过对所述提示响应对中的提示响应的优劣排序而确定的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京百川智能科技有限公司,其通讯地址为:100086 北京市海淀区中关村东路1号院8号楼15层B1701;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。