首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种个性化提示语优化方法、装置、电子设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学技术大学

摘要:本发明公开了一种个性化提示语优化方法、装置、电子设备及存储介质,包括,获取大模型任务级提示语的K个组成部分,构建MDP模型,获取MDP模型的初始时刻状态,根据初始时刻状态,输出当前时刻的推荐物品集,对当前时刻的提示语和当前时刻的推荐物品集中被选择的推荐物品进行编码,迭代得到当前时刻的状态,根据当前时刻的状态,迭代得到下一时刻的状态,根据下一时刻的状态,选择下一时刻的动作,计算下一时刻的动作的概率,和下一时刻的状态的值,根据被选择的推荐物品,得到累计奖励、第一损失函数和第二损失函数;本发明会不断地尝试不同的提示语,根据用户反馈和推荐物品来更新策略,从而逐渐提升提示语的质量和推荐效果。

主权项:1.一种个性化提示语优化方法,其特征在于,包括:使用分布式智能体,获取大模型任务级提示语的K个组成部分;构建MDP模型,所述MDP模型包括,对应K个组成部分的K个动作空间与共享的全局状态空间;所述动作空间的动作用于表征当前迭代的提示语的自然语言,所述状态空间的状态用于表征当前迭代的提示语和大模型输出的推荐物品集;获取MDP模型的初始时刻状态;根据初始时刻状态,使用分布式智能体从动作空间中选择初始时刻的动作,由初始时刻的动作生成当前时刻的提示语;使用当前时刻的提示语作为输入,输出当前时刻的推荐物品集;对当前时刻的提示语和当前时刻的推荐物品集中被选择的推荐物品进行编码,得到提示语表示和推荐物品表示,根据提示语表示和推荐物品表示,迭代得到当前时刻的状态;根据当前时刻的状态,使用分布式智能体从动作空间中选择动作;由动作生成迭代后的提示语,由迭代后的提示语作为输入,输出迭代后的的推荐物品集;根据迭代后的提示语和迭代后的推荐物品集中被选择的推荐物品,迭代得到下一时刻的状态;根据下一时刻的状态,选择下一时刻的动作,计算下一时刻的动作的概率,和下一时刻的状态的值;根据被选择的推荐物品,确定奖励;根据奖励和下一时刻的状态的值,得到累计奖励;根据累计奖励,得到Actor-Critic模型的第一损失函数和第二损失函数;使用所述第一损失函数评估所述下一时刻的状态,使用所述第二损失函数的下一时刻的动作的概率,最大化Actor-Critic模型的期望累计奖励;其中,根据当前和未来奖励以及由Critic神经网络评估的当前和未来价值计算Actor-Critic模型结构的累计奖励,并基于累计奖励为Actor和Critic定义优化目标和,所述累计奖励、第一损失函数和第二损失函数的表达式为: ;其中,是Critic的损失函数,目的是使得通过Critic估计的值接近于真实的奖励值,从而学习到一个准确的值函数,评估状态的价值;是Actor的损失函数,目的是根据决策的概率,最大化策略的期望累积奖励,从而使得Actor学习到一个优秀的策略;继而使得Actor-Critic模型不断优化奖励,更新状态,输出动作,进而迭代出基于个性化的实例级提示语。

全文数据:

权利要求:

百度查询: 中国科学技术大学 一种个性化提示语优化方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。