一种个性化提示语优化方法、装置、电子设备及存储介质

导航：龙图腾网> 最新专利技术> 一种个性化提示语优化方法、装置、电子设备及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学技术大学

摘要：本发明公开了一种个性化提示语优化方法、装置、电子设备及存储介质，包括，获取大模型任务级提示语的K个组成部分，构建MDP模型，获取MDP模型的初始时刻状态，根据初始时刻状态，输出当前时刻的推荐物品集，对当前时刻的提示语和当前时刻的推荐物品集中被选择的推荐物品进行编码，迭代得到当前时刻的状态，根据当前时刻的状态，迭代得到下一时刻的状态，根据下一时刻的状态，选择下一时刻的动作，计算下一时刻的动作的概率，和下一时刻的状态的值，根据被选择的推荐物品，得到累计奖励、第一损失函数和第二损失函数；本发明会不断地尝试不同的提示语，根据用户反馈和推荐物品来更新策略，从而逐渐提升提示语的质量和推荐效果。

主权项：1.一种个性化提示语优化方法，其特征在于，包括：使用分布式智能体，获取大模型任务级提示语的K个组成部分；构建MDP模型，所述MDP模型包括，对应K个组成部分的K个动作空间与共享的全局状态空间；所述动作空间的动作用于表征当前迭代的提示语的自然语言，所述状态空间的状态用于表征当前迭代的提示语和大模型输出的推荐物品集；获取MDP模型的初始时刻状态；根据初始时刻状态，使用分布式智能体从动作空间中选择初始时刻的动作，由初始时刻的动作生成当前时刻的提示语；使用当前时刻的提示语作为输入，输出当前时刻的推荐物品集；对当前时刻的提示语和当前时刻的推荐物品集中被选择的推荐物品进行编码，得到提示语表示和推荐物品表示，根据提示语表示和推荐物品表示，迭代得到当前时刻的状态；根据当前时刻的状态，使用分布式智能体从动作空间中选择动作；由动作生成迭代后的提示语，由迭代后的提示语作为输入，输出迭代后的的推荐物品集；根据迭代后的提示语和迭代后的推荐物品集中被选择的推荐物品，迭代得到下一时刻的状态；根据下一时刻的状态，选择下一时刻的动作，计算下一时刻的动作的概率，和下一时刻的状态的值；根据被选择的推荐物品，确定奖励；根据奖励和下一时刻的状态的值，得到累计奖励；根据累计奖励，得到Actor-Critic模型的第一损失函数和第二损失函数；使用所述第一损失函数评估所述下一时刻的状态，使用所述第二损失函数的下一时刻的动作的概率，最大化Actor-Critic模型的期望累计奖励；其中，根据当前和未来奖励以及由Critic神经网络评估的当前和未来价值计算Actor-Critic模型结构的累计奖励，并基于累计奖励为Actor和Critic定义优化目标和，所述累计奖励、第一损失函数和第二损失函数的表达式为：；其中，是Critic的损失函数，目的是使得通过Critic估计的值接近于真实的奖励值，从而学习到一个准确的值函数，评估状态的价值；是Actor的损失函数，目的是根据决策的概率，最大化策略的期望累积奖励，从而使得Actor学习到一个优秀的策略；继而使得Actor-Critic模型不断优化奖励，更新状态，输出动作，进而迭代出基于个性化的实例级提示语。

全文数据：

权利要求：

百度查询：中国科学技术大学一种个性化提示语优化方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种单元幕墙系统内嵌装饰线条的结构体系

下一篇：一种超声波诊断检查防护装置

相关技术

一种单元幕墙系统内嵌装饰线条的结构体系

一种超声波诊断检查防护装置

一种烟叶分拣定级用的翻转分料装置及方法

一种高直流叠加特性低损耗复合磁粉心的制备方法

一种黄芩病虫害识别系统及方法

钢制防火门的焊接装置

一种多自由度解耦的波浪能发电装置及其工作方法

用于机动车的前照灯

一种家具耐用性综合测试平台及其测试方法

用于抓毛织物表面形貌的检测方法

一种变电站无人机巡视路径规划方法及系统

一种盾构壁后注浆浆液及其制备方法

方法相关技术

拼接处理方法、显示方法及装置_北京嗨动视觉科技有限公司_202410789924.8

焊接方法_华为技术有限公司_202310265226.3

刻蚀方法_中微半导体设备(上海)股份有限公司_201911358929.0

防滑刹车系统、控制方法、余压故障告警方法及处置方法_成都飞机工业(集团)有限责任公司_202410495891.6

应用风险指数生成方法、模型构建方法、检测方法及设备_武汉安天信息技术有限责任公司_202310222148.9

模具模拟方法、模具补偿设计方法以及模具加工制作方法_中信戴卡股份有限公司_202411020603.8

封装方法_立锜科技股份有限公司_202310232492.6

主动降噪系统及其失稳检测方法、控制方法、设备_宁波方太厨具有限公司_202411080503.4

视频解码方法、视频编码方法和装置_三星电子株式会社_202410898515.1

参考信号的发送方法,接收方法和装置_华为技术有限公司_202310260761.X

装置相关技术

编码装置和解码装置_松下电器(美国)知识产权公司_202410905098.9

发光装置和测距装置_索尼半导体解决方案公司_202380019831.0

制冰装置清洗方法及装置、制冰装置_芜湖美的厨卫电器制造有限公司_202410873287.2

天线装置、雷达装置和传送装置_索尼集团公司_202380018884.0

电力发送装置和电力接收装置_佳能株式会社_202380019189.6

消音装置和冷藏冷冻装置_沈阳海尔电冰箱有限公司_202322833303.9

显示装置和电子装置_索尼公司_201980021286.2

后处理装置及图像形成装置_富士胶片商业创新有限公司_202410169420.6

发送装置、接收装置、以及收发系统_索尼半导体解决方案公司_201980063814.0

电化学装置和电子装置_宁德新能源科技有限公司_202210826906.3

优化相关技术

处理优化服务器和系统_阿韦瓦软件有限责任公司_201980052979.8

文档图像优化方法和介质_厦门哲林软件科技有限公司_202210869162.3

模型优化方法以及相关装置_中昊芯英(杭州)科技有限公司_202411095571.8

一种基于冠豪猪优化的风电机组集群功率优化方法、系统、设备及介质_西安热工研究院有限公司_202410673821.5

一种基于优化部署有源RIS辅助的无蜂窝MIMO网络性能优化方法_昆明理工大学_202410807334.3

IOT物联网设备定位数据优化方法_郑州椿长仪器仪表有限公司_202410901202.7

磁补偿系数自适应优化方法及系统_北京自动化控制设备研究所_202111617246.X

汽车传动轴及其弯曲振动频率优化方法_上海纳铁福传动系统有限公司_202011321127.5

一种电磁阀优化结构_北京拓博塔机器人技术有限公司_202420280554.0

缺陷检测模型动态优化方法及装置、介质、设备_浪潮通信信息系统有限公司_202410677953.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种个性化提示语优化方法、装置、电子设备及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务