买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种具有实时性的深度强化学习方法,所述方法包括如下步骤:步骤1、估计决策动作的均值:Agent从任意给定的初始估计状态开始,利用宽度学习系统从最新的数据中学习状态的增量;步骤2、选择决策动作:在以宽度学习系统的输出向量为均值,以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作;步骤3、更新状态。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力,宽度学习系统通过扩展网络的宽度而非深度,实现了对信息的快速处理与学习,通过线性方程直接求解输出权重,从而提高了深度强化学习方法的实时性。
主权项:1.一种具有实时性的深度强化学习方法,其特征在于所述方法包括如下步骤:步骤1、估计决策动作的均值Agent从任意给定的初始估计状态开始,利用宽度学习系统从最新的数据中学习状态的增量,具体步骤如下:步骤1.1、初始化宽度学习系统;步骤1.2、agent利用在线采集到的基站信号的到达时间差和状态差更新宽度学习系统,利用宽度学习系统从最新的数据中学习状态的增量;步骤2、选择决策动作在以宽度学习系统的输出向量为均值,以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作,具体步骤如下:步骤2.1、将宽度学习系统的输出向量即决策动作视为高斯分布策略的均值,双Q网络的输出值中的较小值视为高斯分布策略的协方差;步骤2.2、为了评估决策动作的性能,定义一步奖励函数为: 其中,是到达时间构成的向量,表示决策动作执行后的时间,Qt和Qu是对称正定矩阵;步骤2.3、定义双Q网络总的Q函数为: 其中,γ∈0,1是折扣因子,和表示在第k迭代步和第k+1迭代步agentj的估计状态;步骤2.4、基于Q函数的值和宽度学习系统的输出向量从高斯分布策略中随机选择决策动作得到时间差奖励函数和Q函数;步骤2.5、将元组存储在记忆池中用于更新双Q网络,其中lc是总的迭代步数;步骤3、更新状态步骤3.1、将状态的估计过程建模为马尔可夫决策过程,建立状态的更新过程为: 步骤3.2、直到小于Δt或者估计的状态视为agent的状态向量,否则返回步骤2,每间隔le步返回步骤1.2更新宽度学习系统,其中,Δt表示期望的精度,是迭代步的上界。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 具有实时性的深度强化学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。