买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明涉及一种基于深度强化学习和置信边界的负荷频率控制方法,属于自动发电控制技术领域。本发明首先使用双精度深度Q网络作为深度强化学习框架,解决智能体在不确定和非线性环境中做出决策的问题;其次根据负荷频率控制系统的区域控制误差与控制性能指标设计强化学习奖励函数,该奖励值用于网络的更新;然后使用三层前馈深度神经网络完成Q网络和目标Q网络的搭建,以实现特征映射并从样本中进行特征表达,节省学习过程的存储空间,使用网络和结合奖励值分别计算实际Q值和期望Q值,并计算两者的偏差损失,最后使用梯度下降更新Q网络和目标Q网络;最后在控制动作的随机探索的过程中引入最大置信边界算法来均衡随机动作的被选择概率,然后使用贪心算法结合UCB算法选择一个控制动作发送到环境,完成控制。
主权项:1.一种基于深度强化学习和置信边界的负荷频率控制方法,其特征在于,所述方法包括:Step1:使用双精度深度Q网络作为深度强化学习框架,实现智能体和环境的交互,同时定义样本数据,初始化Q网络和目标Q网络的权重、数据缓冲区大小;所述智能体向环境提供控制动作和记录历史策略样本数据到缓冲区,环境根据控制动作进行更新并向智能体反馈运行效果数据;Step2:根据负荷频率控制电力系统的区域控制误差、控制性能指标和负荷频率控制模型环境的区域数量,设计所述深度强化学习框架中的的奖励函数;Step3:从智能体的缓冲区中随机选取样本数据,通过迭代学习更新Q值,对所述深度强化学习框架中的深度学习网络进行更新,使用三层前馈深度神经网络完成Q网络和目标Q网络的搭建;用网络对从缓冲区选取的随机样本进行训练,并完成实际Q值和期望Q值的计算,最终通过梯度下降方式对Q网络和目标Q网络进行更新;Step4:Q网络更新完毕后,智能体进行动作的选择和动作的随机探索,在动作随机探索的过程中引入最大置信边界算法来平衡随机动作的利用和探索;所述最大置信边界算法对初始动作集进行置信边界值的计算,在随机选择动作时均衡每个动作的被选择概率;所述最大置信边界算法会在动作的随机探索过程中选取未被选择过的动作或者选择具有最大置信边界值的动作,该动作就是智能体进行随机动作探索最终选择的控制动作;Step5:智能体在ε贪心算法的基础上进行控制动作的选择,利用Q网络选择具有最大Q值的动作或结合最大置信边界算法选择随机动作,最终选择一个控制动作策略发送到环境,完成强化学习的一次迭代控制,环境根据控制动作进行更新和调整,将调整后的运行样本数据反馈给智能体。
全文数据:
权利要求:
百度查询: 昆明理工大学 一种基于深度强化学习和置信边界的负荷频率控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。