一种基于深度强化学习的信息多样性推荐方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：东北大学

摘要：本发明公开一种基于深度强化学习的信息多样性推荐方法，方法首先使用自注意力机制模块根据用户的历史行为数据生成状态表示，并将状态表示输入到Actor策略神经网络中，根据策略函数对候选集进行筛选，挑选出推荐动作向量；然后将状态表示和Actor策略神经网络生成的动作一起输入到Critic估值神经网络，对推荐行为进行动作打分，计算出状态价值Q值，然后通过梯度下降反向传播的方式更新参数，待Q值收敛结束从而完成训练过程，将输出的推荐动作作为项目空间，输入到总体多样性效应TDE模块，排序后输出多样性推荐结果。本发明将用户的动态偏好考虑在推荐过程中，并在考虑推荐项目即时回报的基础上，保证了推荐项目的收益最大化。

主权项：1.一种基于深度强化学习的信息多样性推荐方法，其特征在于，包括如下步骤：步骤1：随机初始化Actor策略神经网络的参数和Critic估值神经网络的参数Qs，a|θμ；初始化Actor目标策略神经网络的参数和Critic目标估值神经网络的参数Q′s，a|θμ；初始化经验回放库R；初始化状态表示S0；输入用户的历史行为数据到自注意力机制模块；其中，s为状态，a为动作；f是状态到动作的映射函数，表示从时刻t的状态st映射到时刻t的动作at，f′是目标状态到动作的映射函数；π表示策略，μ表示估值，θπ表示策略参数，θμ表示估值参数；Q函数表示状态-动作价值函数，Q′函数表示目标状态-动作价值函数；步骤2：自注意力机制模块对用户的历史行为数据进行处理，为用户生成状态表示s0；步骤3：将步骤2生成的状态表示全部输入到Actor策略神经网络中，Actor策略神经网络根据当前策略选择最优策略at，并根据策略函数对候选集进行筛选，挑选出推荐动作向量；步骤4：将步骤2生成的状态表示全部输入到Critic估值神经网络，同时将Actor策略神经网络生成的推荐动作向量也作为Critic估值神经网络的输入，使用Critic估值神经网络对推荐行为进行动作打分，计算出状态价值Q，并产生奖励rt；步骤5：通过梯度下降反向传播的方式更新推荐策略，待状态价值Q收敛结束完成训练过程，得到候选推荐项目动作空间；步骤6：将步骤5得到的候选推荐项目动作空间，输入到总体多样性效应TDE模块，排序后输出多样性推荐结果。

全文数据：

权利要求：

百度查询：东北大学一种基于深度强化学习的信息多样性推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电极组件、以及包括该电极组件的二次电池、电池组和交通工具

下一篇：一种海陆生态综合监测系统及其使用方法

相关技术

电极组件、以及包括该电极组件的二次电池、电池组和交通工具

一种海陆生态综合监测系统及其使用方法

一种纸尿裤穿戴多点压力检测装置

一种采油泵

用于金属3D打印设备的保压测试方法、系统及终端

一种蒴果揉搓分选装置及其分选方法

一种面向崎岖地形的新型仿生六足机器人

一种电子束辐照改善MOF基固态聚合物电解质结构和性能的方法

自动适配开关实现低压直流无线智能灯配解网触发的系统、方法、装置、处理器及存储介质

一种命令行的配置存储方法及其对应的配置读取方法

模型可见面选取方法、装置及非易失性存储介质

一种矿泉水生产用过滤装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的信息多样性推荐方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务