华东师范大学韩莉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种连续决策空间组合优化的高效深度强化学习算法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116128028B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310191943.6,技术领域涉及:G06N3/047;该发明授权一种连续决策空间组合优化的高效深度强化学习算法是由韩莉;丁南设计研发完成,并于2023-03-02向国家知识产权局提交的专利申请。
本一种连续决策空间组合优化的高效深度强化学习算法在说明书摘要公布了:一种连续决策空间组合优化的高效深度强化学习算法,包括如下步骤,步骤一:将问题建模成为一个序列决策问题,设定需要得出连续决策组合优化问题的深度强化学习框架元素定义;步骤二:通过步骤一中深度强化学习框架元素的定义,将时序任务中的连续决策空间组合优化问题建模为马尔可夫决策过程,并得出深度强化学习的训练目标;步骤三:通过使用概率性动态规划算法计算训练目标Gt的期望值;步骤四:得出连续决策组合优化问题的最优解。本发明能使智能体降低环境交互成本,通过本发明的深度强化学习中的有效最优动作空间搜索,以及概率性动态规划计算奖励期望解决了时序任务中的连续决策空间组合优化问题的工作。基于上述,本发明具有好的应用前景。
本发明授权一种连续决策空间组合优化的高效深度强化学习算法在权利要求书中公布了:1.一种连续决策空间组合优化的高效深度强化学习算法,其特征在于,算法流程框架如下,A:DRLagent将有限的时间序列数据和组合权重状态作为输入,并产生权重调整的操作,从而使得组合优化任务的奖励回报发生相应变化;B:环境在接受到对应的动作之后生成每个策略对应的奖励,之后,利用多个动作轨迹的奖励,通过梯度下降优化来更新策略网络的参数,同时环境还将组合状态反馈给DRLagent,以便于进行后续的训练处理;C:DRLagent从与环境的多次交互的评估中学习,以便于策略网络能够产生有利的行为,从而获得组合优化任务的最大奖励回报;具体包括如下步骤,步骤一:针对时序任务在深度强化学习中的建模,将问题建模成为一个序列决策问题,为了保证神经网络模型与环境进行大量交互的分析,设定需要得出连续决策组合优化问题的深度强化学习框架元素定义,具体的元素定义数据包括状态、动作、奖励;步骤二:通过步骤一中深度强化学习框架元素的定义,将时序任务中的连续决策空间组合优化问题建模为马尔可夫决策过程,并得出深度强化学习的训练目标;步骤三:通过使用概率性动态规划算法计算训练目标Gt的期望值;步骤四:通过梯度更新来优化网络参数,从而一步一步得出最优的期望回报,最后得出连续决策组合优化问题的最优解。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200062 上海市普陀区中山北路3663号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。