首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的信息多样性推荐方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北大学

摘要:本发明公开一种基于深度强化学习的信息多样性推荐方法,方法首先使用自注意力机制模块根据用户的历史行为数据生成状态表示,并将状态表示输入到Actor策略神经网络中,根据策略函数对候选集进行筛选,挑选出推荐动作向量;然后将状态表示和Actor策略神经网络生成的动作一起输入到Critic估值神经网络,对推荐行为进行动作打分,计算出状态价值Q值,然后通过梯度下降反向传播的方式更新参数,待Q值收敛结束从而完成训练过程,将输出的推荐动作作为项目空间,输入到总体多样性效应TDE模块,排序后输出多样性推荐结果。本发明将用户的动态偏好考虑在推荐过程中,并在考虑推荐项目即时回报的基础上,保证了推荐项目的收益最大化。

主权项:1.一种基于深度强化学习的信息多样性推荐方法,其特征在于,包括如下步骤:步骤1:随机初始化Actor策略神经网络的参数和Critic估值神经网络的参数Qs,a|θμ;初始化Actor目标策略神经网络的参数和Critic目标估值神经网络的参数Q′s,a|θμ;初始化经验回放库R;初始化状态表示S0;输入用户的历史行为数据到自注意力机制模块;其中,s为状态,a为动作;f是状态到动作的映射函数,表示从时刻t的状态st映射到时刻t的动作at,f′是目标状态到动作的映射函数;π表示策略,μ表示估值,θπ表示策略参数,θμ表示估值参数;Q函数表示状态-动作价值函数,Q′函数表示目标状态-动作价值函数;步骤2:自注意力机制模块对用户的历史行为数据进行处理,为用户生成状态表示s0;步骤3:将步骤2生成的状态表示全部输入到Actor策略神经网络中,Actor策略神经网络根据当前策略选择最优策略at,并根据策略函数对候选集进行筛选,挑选出推荐动作向量;步骤4:将步骤2生成的状态表示全部输入到Critic估值神经网络,同时将Actor策略神经网络生成的推荐动作向量也作为Critic估值神经网络的输入,使用Critic估值神经网络对推荐行为进行动作打分,计算出状态价值Q,并产生奖励rt;步骤5:通过梯度下降反向传播的方式更新推荐策略,待状态价值Q收敛结束完成训练过程,得到候选推荐项目动作空间;步骤6:将步骤5得到的候选推荐项目动作空间,输入到总体多样性效应TDE模块,排序后输出多样性推荐结果。

全文数据:

权利要求:

百度查询: 东北大学 一种基于深度强化学习的信息多样性推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。