首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于加权双Q学习的插电式混合动力汽车实时能量控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学;云南开放大学;云南省交通科学研究院有限公司

摘要:本发明涉及汽车能量控制技术领域,且公开了一种基于加权双Q学习的插电式混合动力汽车实时能量控制方法获取车辆历史行驶车速数据;构建Elman神经网络短时域车速预测模型;搭建插电式混合动力汽车动力系统模型;建立离线加权双Q学习能量管理控制器;将离线加权双Q学习策略嵌入模型预测控制算法,基于Elman神经网络预测车辆行驶车速,实时滚动求解出车辆动力电池包与发动机的能量控制策略;该方法基于加权双Q学习算法的插电式混合动力汽车能量控制策略,该算法通过对两个Q函数引入加权因子,有效地进行动作的选择和评估,避免了传统强化学习算法中动作值的高估计和低估计问题,使得算法更具稳健性和准确性,提升插电式混合动力汽车的能量管理性能。

主权项:1.一种基于加权双Q学习的插电式混合动力汽车实时能量控制方法,其特征在于:包括以下步骤:S1、获取车辆历史行驶车速数据和车辆标准工况速度;S2、构建Elman神经网络短时域车速预测模型,具体包括以下步骤:S2.1、建立Elman神经网络车速预测模型,其具体表达式如下: 其中,Vhis表示当前时刻开始前Nhis时域的历史行驶车速序列,作为模型输入值,分别表示车辆在t-Nhis、t-Nhis+1、t-Nhis+i和t时刻的车速,且i∈{0,1…Nhis}; 其中,Vpred表示当前时刻Npred开始预测时域的预测行驶车速序列,分别表示预测得到车辆在t+1、t+j、t+Npred时刻的车速;Vpred=FVhis其中,F*表示历史车速和预测车速之间的函数关系;S2.2、依据车辆历史行驶车速数据和车辆标准工况速度对步骤S2.1中建立Elman神经网络车速预测模型进行训练;S3、搭建插电式混合动力汽车动力系统模型,所述插电式混合动力汽车动力系统模型包括车辆纵向行驶时所需的驱动功率、发动机及电池包以及电机之间的功率流动关系、车辆的动力电池包模型和车辆的发动机瞬时燃油消耗;S4、建立离线加权双Q学习能量管理控制器,包括以下步骤:S4.1、将电池包输出功率作为控制变量,将车辆需求功率和电池包SOC作为状态变量,具体表达式如下:at∈A={Pbp_outt}st∈S={Pregt,SOCt}其中,Pbp_outt、Pregt、st、at、SOCt分别表示t时刻电池包输出功率、车辆需求功率、状态变量、动作变量以及电池SOC,A表示动作空间,S表示状态空间;S4.2、将发动机瞬时燃油消耗和电池SOC变化情况相关的函数作为基于加权双Q学习算法能量控制策略的奖励函数,具体表达式如下: 其中,rWDQLt、ΔSOC、分别表示t时刻的奖励函数值、电池SOC的变化量及瞬时燃油消耗,αfuel和ψsoc分别表示当前时刻瞬时燃油消耗和电池SOC增量的加权因子;S4.3、通过算法公式对QA和QB进行更新: 其中,r表示随机变量,d表示决策变量,QA、QB、s、a、updateQAs,a、updateQBs,a分别表示加权双Q学习算法中的两个Q值函数、状态变量、动作变量、选择QA进行更新、选择QB进行更新;S4.4、建立Q值误差平衡规则,具体表达式如下: 其中,ωA和ωB分别为两个不同的权重因子,c表示用于确保加权过程的无偏性的常数,a*和aL分别表示在下一状态s′的条件下QA、QB取值最大和最小时所对应的最大和最小动作值,QAs′,a*、QBs′,a*、QAs′,aL、QBs′,aL分别表示状态s′和动作a*对应的QA和QB函数值以及状态s′和动作aL对应的QA和QB函数值;S4.5、建立加权Q值函数,具体表达式如下: 其中,QA,WDQLs′,a*和QB,WDQLs′,a*分别表示对于QA、QB的加权Q值函数,ωA和ωB分别为两个不同的权重因子;S4.6、确定Q值更新量,具体表达式如下: 其中,ΔA、ΔB、rWDQL、γ、QAs,a、QBs,a分别表示QA函数的更新量、QB函数的更新量、奖励函数值、折扣因子、状态s和动作a对应的QA以及QB函数值;S4.7、确定Q值更新方式,具体表达式如下: 其中,σA、σB分别表示两个不同的学习速率;S4.8、重复循环执行步骤S4.1-S4.7至循环次数等于最大迭代次数,输出插电式混合动力汽车在加权双Q学习算法离线优化下的能量控制策略,具体表达式如下: 其中,argmax*分别表示最终得到的能量控制策略以及当QAs,a+QBs,a取得最大值时,变量s,a的取值;S5、将步骤S4中得到的离线加权双Q学习策略嵌入模型预测控制算法,基于Elman神经网络预测车辆行驶车速,实时滚动求解出车辆动力电池包与发动机的能量控制策略,包括以下步骤:S5.1、在车辆实际行驶中,将短时域车辆历史行驶车速输入到步骤S2中的Elman神经网络车速预测模型,实时求解预测时域车辆内的行驶速度序列;S5.2、对步骤S5.1中计算得出的车辆行驶速度序列,依据步骤S3中驱动功率,对每一时刻的需求功率进行计算,具体表达式如下: 其中,表示预测得到的需求功率序列,分别表示预测得到车辆在t+1、t+j、t+Npred时刻的车速对应的需求功率;S5.3、计算车辆在预测时域Npred内SOC参考值SOCrt,具体表达式如下: 其中,SOCrt表示t时刻的SOC参考值,SOCini和SOCfinal分别表示车辆行驶时域内SOC的初值和末值,Dtra和Dent分别表示车辆行驶时域内SOC的总行驶距离和已行驶的距离;S5.4、设置用于滚动优化的车辆能耗优化目标函数,具体表达式如下: 其中,表示用于滚动优化的车辆能耗优化目标函数,Tc表示控制时间域的长度,表示对内部数据进行求和,min表示最小值函数,fSOCt表示t时刻的实际SOC值SOCt和t时刻的SOC参考值SOCrt之间的惩罚函数,具体表达式如下: 其中,Γ表示常数系数,SOCt表示t时刻的实际SOC值,SOCrt表示t时刻的SOC参考值;S5.5、将S5.1-S5.4的运用于模型预测控制框架的滚动优化过程中,求解出控制变量最优电池包输出功率,反馈校正后将其首个元素传递给车辆动力系统中,实时分配电池包和发动机之间的动力输出。

全文数据:

权利要求:

百度查询: 昆明理工大学 云南开放大学 云南省交通科学研究院有限公司 一种基于加权双Q学习的插电式混合动力汽车实时能量控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术