首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的电池充放电优化方法、系统及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:四川长园工程勘察设计有限公司

摘要:本发明公开了基于深度强化学习的电池充放电优化方法、系统及介质,基于与充放电相关的历史数据形成了状态集和充放电的动作策略集,进而训练目标网络模型。目标网络模型的主网络包括预测演员家网络和预测评论家网络,其中预测演员家网络包括当前策略预测网络和辅助策略预测网络。所述当前策略预测网络由扩散模型构成,减弱了模型的敏感度,增强了模型的策略生成能力和策略探索能力。基于辅助策略预测与目标演员家网络的输出进行对比学习,辅助提高模型的预测能力,解决了动作策略过估计的问题。本发明能更好的应对复杂的环境变化,智能化更强,能准确的给出充放电策略,延长电池的使用寿命,减少生产商的损耗成本,具有较好的实用性。

主权项:1.基于深度强化学习的电池充放电优化方法,其特征在于,包括以下步骤:步骤S1:收集与储能电池充放电相关的历史数据,得到状态集S={s1,s2,…,sn}和充放电的动作策略集A={a1,a2,…,an},并形成训练数据集;其中sn={Esn,Etotal,Psn,SOC,Vsn},其中:Esn为储能电池n时刻的电池容量集合; E total 为储能电池的总容量集合; P sn 为n时刻的电池的用电功率集合; SOC为储能电池的电荷状态集合; V sn 为n时刻的电池的损耗成本;步骤S2:构建演员家-评论家的目标网络模型,其中预测演员家网络包括当前策略预测网络和辅助策略预测网络,当前策略预测网络由扩散模型构成;然后,基于训练数据集分步训练目标网络模型;步骤S21:首先,训练预测演员家网络和预测评论家网络;当前策略预测网络预测当前状态st下的动作策略at,所述预测评论家网络评估动作策略at的优劣,计算得到策略梯度损失值;然后,基于辅助策略预测网络和目标演员家网络的输出,计算得到对比学习损失值;所述预测演员家网络的损失值为策略梯度损失值和对比学习损失值之和;步骤S22:然后,训练预测评论家网络;通过预测评论家网络与目标评论家网络的输出,计算得到价值损失值;所述预测评论家的损失值为价值损失值;步骤S23:更新当前策略预测网络、预测评论家网络的参数权重,然后,当前策略预测网络和预测评论家网络分别与目标演员家网络和目标评论家网络软交换参数权重;步骤S24:重复步骤S21-步骤S23,分步迭代,直至算法收敛;步骤S3:在仿真环境下测试训练后的目标网络模型,并得到最优的目标网络模型;步骤S4:将当前状态输入最优的目标网络模型得到最佳的电池充放电的动作策略。

全文数据:

权利要求:

百度查询: 四川长园工程勘察设计有限公司 基于深度强化学习的电池充放电优化方法、系统及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。