买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河海大学
摘要:本发明公布了一种基于多智能体强化学习鲁棒奖励函数的充电站定价及充电方法,通过鲁棒奖励函数处理电动汽车行为的不确定性,在历史数据的基础上,实现了充电站最优定价及充电决策。采用多智能体深度强化学习挖掘充电站的非合作博弈动作,实现了配电网‑电动汽车的高效协同。采用不确定状态的马尔可夫过程,构建了最恶劣情况下的鲁棒奖励函数;通过总变差距离将策略差值转化为奖励差值。计及电网及充电站的运行约束和优化目标,构建了基于多智能体深度强化学习鲁棒奖励函数的充电站最优定价及充电模型。
主权项:1.一种基于多智能体强化学习鲁棒奖励函数的充电站定价及充电方法,其特征在于,该方法包括以下步骤:步骤1、获取电网模型的网络系数和运行系数,所述网络系数包括电网拓扑、线路电阻和阻抗,所述运行系数包括发电机组发电系数、储能系统充放电系数、光伏逆变器系数、充电站参数;步骤2、获取电网负荷需求、光伏出力、充电站历史车流量、历史充电需求场景数据;步骤3、针对获取的配电网参数,以电网运行约束、机组运行约束为约束条件,以配电网运行成本最小为目标函数,建立基于最优潮流的配电网运行模型,根据该模型得到充电站所属节点的节点电价;步骤4、充电站作为智能体,将基于步骤3得到的节点电价及充电站的历史数据作为智能体状态的输入,以车辆充电需求更新约束、停车时间更新约束、充电功率约束为约束条件,充电站综合收益最大为目标函数,建立充电站运行模型,根据该模型计算得出充电站与配电网的申报功率;步骤5、基于步骤3得到的节点电价和步骤4得到的申报功率,利用多智能体鲁棒近端策略优化算法计算得到充电站的鲁棒奖励函数,构建鲁棒奖励函数的过程即量化最恶劣情况下的奖励与确定性奖励的差值的过程,用霍尔德不等式和柯西-施瓦兹不等式的对偶形式对该差值进行松弛。
全文数据:
权利要求:
百度查询: 河海大学 一种基于多智能体强化学习鲁棒奖励函数的充电站定价及充电方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。