Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的电动公交车辆混合充电方案优化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学;交通运输部科学研究院

摘要:基于深度强化学习的电动公交车辆混合充电方案优化方法,本发明涉及电动公交车辆混合充电方案优化方法。本发明为了解决现有“光伏‑储能‑电网”的混合供电模式忽略了光伏发电功率的随机波动,且难以充分应对外部环境的动态变化,所生成的公交车充电方案往往在实际中无法达到最优效果,导致公交系统所消耗电能中的光伏电能占比低,充电成本高的问题。过程为:确定公交系统充电调度目标与约束条件;将公交系统充电调度问题转化为马尔可夫控制问题;求解问题确定网络参数;将待测的智能体系统在t时段的状态和时段的动作输入网络,输出建议动作集,获取实际动作集;将实际动作集转换成充电方案并执行。本发明用于电动公交车辆充电优化领域。

主权项:1.基于深度强化学习的电动公交车辆混合充电方案优化方法,其特征在于:所述方法具体过程为:步骤1.确定公交系统充电调度目标与约束条件;具体过程为:步骤1.1.定义基础变量;具体过程为:步骤1.1.1.布设光伏设施的公交场站运营公交线路数为I,I条线路配置K辆电动公交车,每天共需运行N个班次;场站布设O个充电桩,各充电桩的充电功率均为PCP,PCP单位为kW;将电动公交车k的电池额定容量记为Bk,Bk单位为kWh,k=1,2,...,K;将公交车k的电池健康状态记为SOHk,SOHk单位为%;将储能装置的电池额定容量记为Be,Be单位为kWh;将储能装置的电池健康状态记为SOHe,SOHe单位为%;将光伏布设面积记为A,A单位为m2;步骤1.1.2.以Δt为时间间隔,将全天划分为T个时段, 表示向下取整,Δt单位为min;将t时段的起始时刻记为ht,sta、结束时刻记为ht,end,t=1,2,…,T;步骤1.1.3.将t时段内光伏的发电功率记为Pt,PV,Pt,PV单位为kW;将t时段内太阳辐射记为Gt,Gt单位为kWm2;将公交车k在h1,sta时刻的电池荷电状态SOC记为将储能装置在h1,sta时刻的电池荷电状态SOC记为步骤1.1.4.将公交车k在ht,sta时刻前已经完成的班次集合定义为若公交车k在t时段处于行驶状态,将公交车k在t时段正在进行的班次记为若公交车k在t时段不处于行驶状态,则令将公交车k在t时段以后即将执行的第1个班次记为步骤1.1.5.在t时段,对于公交车k有3种供选择的充电方式:利用光伏充电、利用储能装置充电以及利用电网充电;任意一辆公交车在同一时段只能选择一种充电方式;若在t时段,公交车k选择利用光伏进行充电,则令否则令若在t时段,公交车k选择利用储能装置进行充电,则令否则令若在t时段,公交车k选择电网进行充电,则令否则令储能装置有两种供选择的充电方式:利用光伏充电以及利用电网充电;若在t时段,储能装置选择利用光伏进行充电,则令否则令若在t时段,储能装置选择利用电网进行充电,则令否则令步骤1.2.确定储能装置的电池荷电状态SOC;步骤1.3.确定公交车电池的电池荷电状态SOC;步骤1.4.确定公交系统在全天的充电成本;步骤1.5.确定公交系统的平均光伏发电自用率;步骤1.6.将公交系统总充电成本最小以及光伏发电自用率最大设置为模型的优化目标;步骤1.7.确定公交车以及储能装置在t时段的充电次数与步骤1.8.设置模型约束条件;步骤2.将公交系统充电调度问题转化为马尔可夫控制问题;步骤3.利用双延迟深度确定性策略梯度算法求解马尔可夫控制问题,确定主Critic网络、主Actor网络、目标Critic网络、目标Actor网络的网络参数;步骤4.将待测的智能体系统在t时段的状态St和t-1时段的动作At-1输入主Actor网络,主Actor网络输出当前时段的建议动作集;基于建议动作集获取实际动作集;将实际动作集转换成充电方案并执行;所述步骤1.2中确定储能装置的电池荷电状态SOC;具体过程为:步骤1.2.1.将t时段储能装置的充电量记为表达式为: 式中,为t时段储能装置的充电量,单位为kWh; 为0-1整数变量,表示储能装置的充电状态;变量取值为1表示储能装置在t时段内存在充电计划,变量取值为0表示储能装置在t时段内不存在充电计划; 表示储能装置在t时段的充电持续时间,单位为min; 取值在最小充电时间与时间间隔Δt之间,单位为min;ξ是充电桩的充电效率;步骤1.2.2.确定储能装置在t时段的总耗电量表达式为: 式中,为储能装置在t时段的总耗电量,单位为kWh; 为0-1整数变量,表示公交车k的充电状态;变量取值为1表示交车k在t时段内存在充电计划,变量取值为0表示公交车k在该时段将不存在充电计划; 表示公交车k在t时段的充电持续时间,单位为min; 取值在最小充电时间与时间间隔Δt之间,单位为min;步骤1.2.3.利用公式3-4确定储能装置在ht,sta时刻的SOC,即表达式为: 式中,是储能装置在ht,sta时刻的剩余电量,单位为kWh;为储能装置在ht,sta时刻的SOC,单位为%;所述步骤1.3中确定公交车电池的电池荷电状态SOC;具体过程为:步骤1.3.1.计算公交车k在t时段的充电量表达式为: 式中,为公交车k在t时段的充电量,单位为kWh;表示公交车k在t时段的充电持续时间,单位为min;取值在最小充电时间与时间间隔Δt之间,单位为min;ξ是充电桩的充电效率,取值为0.9;步骤1.3.2.确定公交车k在班次n的耗电量Ek,n,表达式为:lnEk,n=-8.11+0.5523lnLn+0.78lnGk+0.35lnTn+0.0077|τk,n-τ*|6式中,Ek,n为公交车k在班次n的耗电量,Ek,n单位为kWh;Ln是班次n的运营里程,Ln单位为km;Gk是公交车k的整备质量,单位为kg;Tn是班次n的行程时间,Tn单位为min;τk,n是公交车k执行班次n时的平均环境温度,τk,n单位为℃;τ*是公交车电池的最佳工作温度,τ*单位为℃;公交车k的总耗电量如公式7所示: 单位为kWh;步骤1.3.3.公交车k的电池荷电状态如公式8所示: 单位为%;所述步骤1.4中确定公交系统在全天的充电成本;具体过程为:步骤1.4.1.确定储能装置在t时段的充电成本表达式为: 式中,为储能装置在t时段的充电成本,单位为元;cPV是光伏发电的度电成本,单位为元kWh;ct,SG是电网在t时段的单价,单位为元kWh;步骤1.4.2.将储能装置在t时段内的供电单价记为ct,ESS,表达式为: 式中,ct,ESS为储能装置在t时段内的供电单价,单位为元kWh;步骤1.4.3.确定公交车k在t时段的充电成本表达式为: 式中,为公交车k在t时段的充电成本,单位为元;步骤1.4.4.将公交系统在t时段的总充电成本记为Ct,表达式为: 式中,Ct为公交系统在t时段的总充电成本,单位为元;公交系统包含公交车、光伏设施、储能装置;步骤1.4.5.公交系统在全天的充电成本Z1的计算方法如公式13所示: 式中,Z1为公交系统在全天的充电成本,单位为元;所述步骤1.5中确定公交系统的平均光伏发电自用率;具体过程为:步骤1.5.1.用μt表示公交系统在t时段的光伏发电自用率,表达式为: 其中,光伏在t时段的发电功率Pt,PV由式15计算: 式中,ξPV是光伏发电效率;为光伏额定功率,单位为kW;β为温度系数;τt,c为在t时段的光伏电池温度,单位为℃;为光伏电池参考温度,单位为℃; 式中,τt,amb是环境温度,单位为℃;τNOCT是光伏电池正常工作时的电池温度,单位为℃;步骤1.5.2.确定公交系统在全天的平均光伏发电自用率Z2,表达式为: 所述步骤1.6中将公交系统总充电成本最小以及光伏发电自用率最大设置为模型的优化目标;如公式18、19所示:minZ118maxZ219所述步骤1.7中确定公交车以及储能装置在t时段的充电次数与具体过程为:步骤1.7.1.将公交车k在t时段中第t′分钟的充电状态记为 表示公交车k在t时段中第t′分钟处于充电状态; 表示公交车k在t时段中第t′分钟不处于充电状态;t′=1,2,...,Δt;将储能装置在t时段中第t′分钟的充电状态记为 表示储能装置在t时段中第t′分钟处于充电状态; 表示储能装置在t时段中第t′分钟不处于充电状态;t′=1,2,...,Δt;步骤1.7.2.统计公交车以及储能装置在t时段的充电次数与 式中,表示公交车在t时段的充电次数;表示储能装置在t时段的充电次数;表示公交车k在t-1时段中第Δt分钟的充电状态;表示公交车k在t时段第1分钟的充电状态;表示储能装置在t-1时段中第Δt分钟的充电状态;表示储能装置在t时段第1分钟的充电状态;∧、∨、是逻辑运算符号,分别表示与运算、或运算、非运算;所述步骤1.8中设置模型约束条件;模型约束条件如下所示: 所述模型约束条件还包括储能装置在同一时刻不能同时进行充、放电活动;式中,是公交车k在t时段结束时的电池荷电状态,其在数值上等同于公交车k在t+1时段开始时的电池荷电状态;是储能装置电池在t时段结束时的电池荷电状态; 与分别是电动公交车电池的SOC上限与下限; 与分别是储能装置电池的SOC上限与下限; 是公交车k执行班次的耗电量;若则若计算方式如公式6所示;MEB与MESS分别表示公交车与储能装置在全天的最大充电次数;公式22、23表示公交车与储能装置在任意时段都只能有一种充电方式;公式25表示同一时刻同时充电的公交车数不能超过充电桩数量;公式26表示任意时刻光伏总供电功率不能超过光伏发电功率;公式27表示公交车电池在各时段结束时的SOC不能超过公交车电池的SOC上限;公式28表示公交车在结束班次后的SOC应不小于公交车电池的SOC下限;公式29表示储能装置在各时段结束时的SOC需要在储能装置电池的SOC上限与下限的约束范围之内;公式30表示公交车在全天的总充电次数不能超过最大充电次数;公式31表示储能装置在全天的总充电次数不能超过最大充电次数;所述步骤2中将公交系统充电调度问题转化为马尔可夫控制问题;具体过程为:步骤2.1.将K辆公交车设置为K个独立的公交车智能体,使用k为编号;将储能装置设置为独立的储能智能体;由K个独立的公交车智能体和1个储能智能体组成的智能体系统;步骤2.2.将智能体系统在t时段的状态记为St,St的表达式如公式32: 式中,st,env是t时段的基础环境状态; 是t时段的公交车智能体1、…、k、…、K的状态; 是t时段的储能智能体状态; 式中,表示公交车k距班次发车的剩余时间,在数值上等于t时段起始时刻ht,sta与班次的发车时刻的差值,min;表示t时段的公交车智能体k的状态;步骤2.3.将智能体系统在t时段的动作记为At,At的表达式如式36: 式中,表示t时段公交车智能体k的动作,k=1,2,...,K; 表示t时段储能智能体的动作; 和由公式37、38所示: 式中,表示t时段公交车智能体k的充电方式;表示t时段公交车智能体k不进行充电,表示t时段公交车智能体k利用光伏进行充电,表示t时段公交车智能体k利用储能装置进行充电,表示t时段公交车智能体k利用电网进行充电; 表示t时段储能智能体的充电方式;表示t时段储能智能体不进行充电,表示t时段储能智能体利用光伏进行充电,表示t时段储能智能体利用电网进行充电; 与分别表示t时段公交车智能体k与储能智能体的充电起始时刻,步骤2.4.将公交系统在t时段的奖励记为Rt,Rt的表达式如式39: 式中,rt,ESS是基于储能装置同时进行充、放电行为的惩罚系数和储能装置在同一时刻不能同时进行充、放电活动的条件下的惩罚函数;rt,SOC是约束27-29转化成的惩罚函数,计算方法如公式41;rt,cn是约束30、31转化成的惩罚函数,计算方法如公式44; 是团体奖励中的系数; 式中,是公交车智能体k在t时段的SOC惩罚成本,其计算方法如公式42; 是储能智能体在t时段的SOC惩罚成本,计算方法如公式43; 式中,是公交车智能体的SOC惩罚系数; 式中,是储能智能体的SOC惩罚系数; 式中,与分别是公交车智能体以及储能智能体在t时段的基础充电惩罚成本;与分别是公交车智能体以及储能智能体在t时段的额外充电惩罚成本; 式中,ωbase是基础罚分系数;ωetr是累计充电次数接近限制时的额外罚分系数;所述步骤3中利用双延迟深度确定性策略梯度算法求解马尔可夫控制问题;具体过程为:步骤3.1.搭建主网络,主网络包括主Actor网络和主Critic网络;具体过程为:步骤3.1.1.搭建主Actor网络,主Actor网络依次由一个输入层、三个隐藏层、ReLU激活函数层、以及一个输出层组成;具体过程为:步骤3.1.1.1.对于公交车智能体,主Actor网络的输入为由t时段公交车智能体的状态和t-1时段公交车智能体的动作组成的6维向量;对于储能智能体,主Actor网络的输入为由t时段储能智能体的状态和t-1时段储能智能体的动作组成的4维向量;步骤3.1.1.2.将三个隐藏层的神经元个数均设置为128;步骤3.1.1.3.主Actor网络的输出是当前时段的建议动作;建议动作的维度是3;步骤3.1.2.对于公交车智能体,主Actor网络输出的建议动作输入Softmax函数;分别输入Tanh激活函数;对于储能智能体,主Actor网络输出的建议动作输入Softmax函数;分别输入Tanh激活函数;步骤3.1.3.搭建主Critic网络,主Critic网络依次由一个输入层、三个隐藏层、ReLU激活函数以及一个输出层组成;具体过程为:步骤3.1.3.1.将主Critic网络的输入设置为由各智能体的状态与动作以及基础环境状态组成的9K+13维的向量;步骤3.1.3.2.将三个隐藏层的神经元个数均设置为128;步骤3.1.3.3.Critic网络直接输出所有智能体的状态-动作对的Q值估计;步骤3.1.4.将Actor网络的学习率lrAct设置为1e-4;将Critic网络的学习率lrCri设置为5e-4;将折扣因子γ设置为0.99;生成动作探索过程中的探索噪声;其中,噪声回到均值的速度v设置为0.15;噪声的振幅m设置为0.2;噪声的长期均值p设置为0;初始噪声值u1设置为0;使用经验回放池来存储和随机抽取训练样本,池大小设为1e-6;采用Adam优化器更新主网络参数;步骤3.2.采用He初始化方法初始化主网络中主Actor网络和主Critic网络的权重;将初始偏置统一设置为0;将最大迭代次数设置为1000;步骤3.3.搭建目标网络,目标网络包括目标Actor网络和目标Critic网络;目标Actor网络与主Actor网络的结构相同,参数取值一致;目标Critic网络与主Critic网络的结构相同,参数取值一致;目标网络采用软更新策略,更新公式如公式50所示:θtar=ψθ+1-ψθtar50式中,θtar是目标网络的参数;θ是主网络的参数;ψ是更新策略系数,取值为0.1;步骤3.4.令各智能体从环境中接收t时段的状态和t-1时段的动作信息输入主Actor网络,基于主Actor网络获取t时段的建议动作;随后在建议动作上添加噪声,并将添加噪声后的动作发送回环境;噪声计算的方式如公式51所示: 式中,ut为t时段的噪声,ut-1为t-1时段的噪声,v为噪声回到均值的速度,p为噪声的长期均值,m为噪声的振幅,εt是在t时段从标准正态分布N0,1中抽取的随机样本;步骤3.5.考虑模型约束确定最终实际动作;具体过程为:步骤3.5.1基于3.4的主Actor网络获取的建议动作集,将充电方式不同的公交车辆分配到四种不同的集合Kunc、KPV、KESS、KSG,统计各集合中的公交车数目,分别记为nunc、nPV、nESS、nSG;式中,Kunc表示不充电的公交车集合,KPV表示使用光伏进行充电的公交车,KESS表示使用储能充电的公交车集合,KSG表示使用电网充电的公交车集合;nunc表示集合Kunc中的公交车数目,nPV表示集合KPV中的公交车数目,nESS表示集合KESS中的公交车数目,nSG表示集合KSG中的公交车数目;步骤3.5.2.判断需要充电的公交车数是否大于充电桩数;当需要充电的公交车数大于充电桩数时,进入步骤3.5.7;当需要充电的公交车数小于等于充电桩数时,若nPV≠0则进行步骤3.5.3;若nPV=0且nESS≠0则进入步骤3.5.5;若都不满足则将当前建议动作集定义为最终实际动作集;步骤3.5.3.计算步骤3.4的主Actor网络获取的建议动作集下光伏每分钟的供电功率若值大于Pt,PV,进入步骤3.5.4;否则,固定此时KPV中所有公交车的充电方案;固定此时KPV中所有公交车的充电方案后,判断是否有车辆使用储能装置进行充电;若是,则进入步骤3.5.5;否则,将当前动作集定义为最终实际动作集;步骤3.5.4.替换KPV中充电持续时间最少的公交车的充电方式;具体过程为:步骤3.5.4.1.比较t时段储能装置的供电单价ct,ESS与电网在t时段的单价ct,SG大小,当ct,ESS>ct,SG时,进入步骤3.5.4.3;当ct,ESS≤ct,SG时,若nESS=0,进入步骤3.5.4.3;若都不满足,计算使用储能装置充电后,储能装置在t时段的总耗电量进入步骤3.5.4.2;步骤3.5.4.2.若总耗电量大于t时段开始时储能装置的电量进入步骤3.5.4.3;否则,令公交车在t时段利用储能装置进行充电,返回步骤3.5.3;步骤3.5.4.3.令公交车在t时段利用电网进行充电,返回步骤3.5.3;步骤3.5.5.计算储能装置在t时段的总耗电量若大于t时段开始时储能装置的电量进入步骤3.5.6;否则,固定此时KESS中公交车的充电方案,令并将当前动作集定义为最终实际动作集;步骤3.5.6.替换KESS中充电持续时间最少的公交车的充电方式;具体过程为:步骤3.5.6.1.比较t时段光伏发电的度电成本cPV与电网在t时段的单价ct,SG大小,若cPV>ct,SG,进入3.5.6.3;否则,计算使用光伏充电后,光伏每分钟的供电功率步骤3.5.6.2.若光伏每分钟的供电功率大于t时段内光伏的发电功率Pt,PV,进入步骤3.5.6.3;否则,令公交车在t时段利用光伏进行充电,返回步骤3.5.5;步骤3.5.6.3.令公交车在t时段利用电网进行充电,返回步骤3.5.5;步骤3.5.7.计算所有需要充电的公交车的充电优先级 式中,是充电优先级的计算系数;步骤3.5.8.将需要充电的公交车按照充电优先级从大到小的顺序排列,取充电优先级排名前O名的公交车,进入步骤3.5.1;步骤3.6.将最终确定的实际动作集转换成充电方案,令各公交车以及储能装置执行所确定的充电方案,获得新的状态,并计算奖励;步骤3.7.将状态、动作、奖励、新状态作为一条样本存储到经验池;步骤3.8.从经验池中随机抽取一批数据样本;将各样本的状态与动作输入到主Critic网络并输出对应的实际Q值,即QS,A;将新状态和上一时刻动作输入到主Actor网络获得各样本在新状态的建议动作,随后通过步骤3.5获得新状态下的最终实际动作;将获得新状态和新状态下的最终实际动作输入到目标Critic网络并输出对应的目标Q值,即QtarS′,A′;步骤3.9.基于公式53更新目标Q值,并将更新后的目标Q值记为y:y=r+γQtarS′,A′53式中,r是样本中记录的奖励值,γ为折扣因子;步骤3.10.计算Critic网络的损失函数LCri,应用Adam优化器更新主Critic网络参数; 式中,yn与QnS,A分别是所抽取的批次数据中第n个样本数据的y值和实际Q值;Nsam表示从经验池中随机抽取的数据样本条数;步骤3.11.计算Actor网络的损失函数LAct,公交车智能体与储能智能体对应的Actor网络的损失函数相同: 应用Adam优化器更新各智能体的主Actor网络参数;步骤3.12.使用软更新策略,每隔10代更新目标Critic网络和目标Actor网络的参数;步骤3.13.重复步骤3.4-步骤3.12,直至满足学习的终止条件保存主Critic网络、主Actor网络、目标Critic网络、目标Actor网络的网络参数,进入步骤4;所述步骤4中将待测的智能体系统在t时段的状态St和t-1时段的动作At-1输入主Actor网络,主Actor网络输出当前时段的建议动作集;基于建议动作集获取实际动作集;将实际动作集转换成充电方案并执行;具体过程为:步骤4.1.以h1,sta为起始时刻,将步骤3.13保存主Actor网络参数加载到主Actor网络中;步骤4.2.将待测的智能体系统在t时段的状态St和t-1时段的动作At-1输入步骤4.1的主Actor网络中,主Actor网络输出当前时段的建议动作集;基于建议动作集获取实际动作集;将实际动作集转换成充电方案并执行;步骤4.3.重复步骤4.2,直至hT,end。

全文数据:

权利要求:

百度查询: 吉林大学 交通运输部科学研究院 基于深度强化学习的电动公交车辆混合充电方案优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。