悦积分企业管理有限公司王浩镔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉悦积分企业管理有限公司申请的专利一种基于强化学习的互联网积分动态激励机制设计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120258886B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510291778.0,技术领域涉及:G06Q30/0207;该发明授权一种基于强化学习的互联网积分动态激励机制设计方法是由王浩镔;鲁龙基;朱宏;郑先银设计研发完成,并于2025-03-12向国家知识产权局提交的专利申请。
本一种基于强化学习的互联网积分动态激励机制设计方法在说明书摘要公布了:本发明公开了一种基于强化学习的互联网积分动态激励机制设计方法,包括如下步骤:S1、构建用户行为数据集;S2、采用自然语言处理技术生成情境标签;S3、使用情境自适应奖励算法计算奖励数值;S4、通过奖励数值以及用户行为反馈,结合用户的任务参与情况和反馈回路,动态调整奖励策略;S5、使用门控循环单元模型预测用户未来的行为趋势,生成用户的行为预测结果;S6、结合混沌搜索策略和狼群优化算法对奖励策略进行动态优化,获得优化后的奖励策略;S7、评估奖励的有效性和用户兴趣变化,基于A3C算法获得最终全局奖励策略,实现实时动态调整互联网积分激励机制。本发明利用情境自适应奖励算法和优化技术等,实现了动态调整互联网积分激励策略。
本发明授权一种基于强化学习的互联网积分动态激励机制设计方法在权利要求书中公布了:1.一种基于强化学习的互联网积分动态激励机制设计方法,其特征在于,包括如下步骤: S1、通过传感器和移动端设备收集用户的行为数据并进行预处理,构建用户行为数据集; S2、采用自然语言处理技术,获取用户的情感状态及所在情境信息,生成情境标签; S3、使用情境自适应奖励算法计算奖励数值,根据用户行为数据集及情境标签动态调整奖励强度和形式,并将所述奖励数值引入模糊逻辑系统; S4、通过生成的奖励数值以及用户行为反馈,调整奖励的类型和频率,结合用户的任务参与情况和反馈回路,动态调整奖励策略,所述反馈回路基于用户的奖励接受度及行为变化进行优化; S5、基于调整后的奖励策略,使用门控循环单元模型预测用户未来的行为趋势,包括用户未来的活动频率、参与度和兴趣点,生成用户的行为预测结果; S6、根据用户的行为预测结果,结合混沌搜索策略和狼群优化算法对奖励策略进行动态优化,优化过程通过模拟狼群觅食行为在多目标优化空间中寻找最优策略,获得优化后的奖励策略; S7、根据优化后的奖励策略,收集用户的反馈信息,包括用户对奖励的接受度、任务参与度和积分使用情况,评估奖励的有效性和用户兴趣变化,基于A3C算法获得最终全局奖励策略,所述A3C算法通过结合探索与利用的方式,使全局奖励策略适应不同用户情境下的需求,实现实时动态调整互联网积分激励机制; 所述S4具体包括: S41、根据生成的奖励数值和用户行为反馈,结合用户的任务参与情况和情境标签,确定奖励调整因子: ; 其中,表示奖励调整因子,表示行为特征的权重,表示行为特征在时间的变化量,表示用户行为特征总数,表示情境特征的权重,表示情境特征在时间的变化量,表示用户情境特征总数,表示奖励接受度和行为变化的综合反馈量,、和表示调节参数; S42、基于奖励调整因子动态调整奖励的强度和类型: ; 其中,表示调整后的奖励数值,表示初始奖励值,表示调节系数,表示反馈权重,表示第项反馈的变化量,表示反馈项的数量; S43、根据调整后的奖励数值,结合用户对奖励的接受度以及任务参与度,动态调整奖励的类型与频率,调整过程基于用户行为反馈进行优化: ; 其中,表示调整的奖励数值变化量,表示用户的奖励接受度,表示用户的任务参与度,表示用户的行为变化量,表示任务完成情况的变化量,和表示调节参数; S44、通过实时收集用户对奖励的反馈信息,采用反馈回路对奖励的类型和频率进行调整,所述反馈回路包括用户对奖励的接受度、任务参与情况和行为变化信息,所述行为变化信息通过用户行为数据集和情境标签进行实时更新; 所述S7具体包括: S71、根据优化后的奖励策略,收集用户的反馈信息,所述反馈信息包括用户对奖励的接受度、任务参与度、积分使用情况、奖励消耗速率和用户兴趣变化,形成用户反馈数据集; S72、根据用户反馈数据集,构建奖励效果评估函数,所述奖励效果评估函数结合用户反馈数据集进行建模,定义行为状态为在时间步时用户的状态,包含用户的活动频率和任务参与度信息,并根据行为状态评估用户对奖励的接受程度: ; 其中,表示奖励效果评估函数,表示用户反馈数据项的权重,表示用户反馈的各项指标,表示用户任务参与度对奖励接受度的影响权重,表示用户在时间步的参与度; S73、利用A3C算法中的并行智能体计算并优化用户行为的策略,所述A3C算法中策略网络和价值网络分别用来预测用户在不同状态下的奖励期望和实际奖励; S74、结合探索与利用的策略,动态调整全局奖励策略,探索部分通过随机选择动作进行策略探索,获得最终全局奖励策略: ; ; 其中,表示更新后的探索策略网络的参数,表示更新前的探索策略网络的参数,表示更新后的利用策略网络的参数,表示更新前的利用策略网络的参数,表示探索与利用的平衡系数,表示探索阶段的损失函数梯度,表示利用阶段的损失函数梯度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人悦积分企业管理有限公司,其通讯地址为:100070 北京市丰台区外环西路26号院55号楼-2至4层1101内2层2002;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励