首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于DDPG的分布式电驱动车辆的AFS、ARS和DYC协同控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京航空航天大学

摘要:本发明公开了一种基于DDPG的分布式电驱动车辆的AFS、ARS和DYC协同控制方法,该方法利用协同调控方法和深度强化学习方法,基于质心侧偏角和横摆角速度设计开发了车辆稳定性控制方法;以驾驶员提供的驾驶信号和测量或估计的车辆状态信息作为输入,判断车辆的稳定性。当需要主动安全系统干预时,利用策略深度梯度算法离线训练好的DDPG‑AAD模型协调控制AFS、ARS和DYC系统,实现对每个车轮的精确、独立控制,从而提高车辆的主动安全行驶稳定性。

主权项:1.一种基于DDPG的分布式电驱动车辆的AFS、ARS和DYC协同控制方法,其包括有下列步骤:步骤一,建立普通车辆的动力学模型,传感器组采集驾驶信号和车辆状态信号,并将车辆信号传给渐消EKF观测器;步骤二:在普通车辆的动力学模型基础上建立四轮独立转向的车辆微分方程,渐消EKF观测器在此基础上接收驾驶信号和车辆状态信号,估计质心侧偏角和横摆角速度;步骤三:根据线性二自由度模型计算期望的的横摆角速度和质心侧偏角;步骤四:车辆稳定性判断模块依据测量值、名义值、期望值,同时考虑车辆横摆角速度和质心侧偏角,通过横摆角速度阈值法和双线法联合判断车辆稳定状态;步骤五:建立具有AFS、ARS、DYC系统的车辆状态方程,为后续深度强化学习状态空间、动作空间、奖励函数的构建提供依据;考虑AFS与ARS系统对每一个车轮输入不同的转角,计算车辆纵向力需求及跟踪误差、车辆稳定裕度;步骤六:确定DDPG-AAD模型的控制目标,构建状态空间st、动作空间at和奖励函数r并进行离线训练,规定停止条件,输出最佳策略;其特征在于:渐消EKF观测器依据加速度信号对DEC的横摆角速度和质心侧偏角进行估计;所述渐消EKF观测器[Xk+1,Zk]的参数化描述为:Xk=[βEKFωEKFvxvy]T14Zk=h[Xk,uk]+εk=[vxvy]T15Xk+1=g[Xk,uk]+wk16 pk∣k-1=λk[Φk×pk-1×ΦTk+Q]19 Ck={ck[Φk×pk×ΦkT+Q]ckT}+R″21Kk=pk∣k-1×cTk[ck×pk∣k-1×cTk+R]-122 pk=[In-Kkck]×pk∣k-124Xk为k时刻的车辆状态;Zk为k时刻车辆状态的测量变量;βEKF为经渐消EKF观测器滤波后的质心侧偏角;ωEKF为经渐消EKF观测器滤波后的横摆角速度;vx为车辆的纵向速度;vy为车辆的横向速度;上角标T代表坐标转置符号;Xk+1为k+1时刻的车辆状态;为k+1时刻更新后的车辆状态;h[Xk,uk]为车辆状态Xk和估计量uk下的滤波输出方程;g[Xk,uk]为车辆状态Xk和估计量uk下的滤波状态方程;uk为k时刻的估计量;wk为滤波过程噪声;εk为滤波测量噪声;Φk为gXk,uk对状态变量求偏导的雅可比矩阵;Φk|k-1为通过k-1时刻预测的k时刻的雅可比矩阵;pk-1为k-1时刻的协方差矩阵;pk∣k-1为通过k-1时刻预测的k时刻的协方差矩阵;ck为hXk,uk对状态变量求偏导的雅可比矩阵;Ck为估计协方差阵;Kk为卡尔曼滤波增益;λk为k时刻的渐消因子;tr为迹运算符号;pk为替代符号,且pk=[In-Kkck]×pk∣k-1中In为单位矩阵;DDPG-AAD模型的参数化描述为: U=[Δδfl,Δδfr,αrl,αrr,Fxfr,Fxfl,Fxrr,Fxrl]T30 Fdesl=Fxfl+Fxfr+Fxrl+Fxrr32eβ=βEKF-βd33eω=ωEKF-ωrd34e=p1βEKF-βd+p2ωEKF-ωrd35 star_i=ri+γQ′si+1,ψ'si+1|θψ'θQ′40Ypre_i=Qsi,ai∣θQ41 θQ'←τθQ'+1-τθQ'45θψ'←τθψ+1-τθψ'46m为整车质量;νx为车辆的纵向速度;为车辆的质心侧偏角加速度;为车辆的横摆角加速度;kf为车辆的前轮等效侧偏刚度;kr为车辆的后轮等效侧偏刚度;lf为质心到前轴的距离;lr为质心到后轴的距离;δf为驾驶员操纵的前轮转角;Δδfl为AFS系统对前左轮转角的调整转角;Δδfr为AFS系统对前右轮转角的调整转角;αrl为ARS系统对后左轮的输入转角;αrr为ARS系统对后右轮的输入转角;Iz为车辆绕z轴的转动惯量;tf为前轴轮距;tr为后轴轮距;为状态变量对时间的一阶导数;X为状态变量;A为状态矩阵;B为输入矩阵;U为输入矢量;E为干扰矩阵;Fxfr为前右轮纵向力;Fxfl为前左轮纵向力;Fxrr为后右轮纵向力;Fxrl为后左轮纵向力;Fdesl为期望总纵向力;eβ为质心侧偏角误差;βEKF为渐消EKF观测得到的质心侧偏角;βd为期望的质心侧偏角;eω为横摆角速度误差;为渐消EKF观测得到的横摆角速度;ωrd为期望的横摆角速度;e为质心侧偏角和横摆角速度加权误差;p1为质心侧偏角误差权重;p2为横摆角速度误差权重;ηfl为前左车轮的负荷利用率;ηfr为前右车轮的负荷利用率;ηrl为后左车轮的负荷利用率;ηrr为后右车轮的负荷利用率;μ为道路附着系数;J1为第一目标;J2为第二目标;r为奖励函数;rad为追踪奖励;rtorque为稳定裕度奖励;Had为角速度追踪标志;Hβ为质心侧偏角追踪标志;Hω为横摆角速度追踪表示Lad为角速度惩罚标志;Ltorque为车辆稳定裕度惩罚标志;δfl为前左轮转角;δfr为前右轮转角;δrl为后左轮转角;δrr为后右轮转角;ΔM为附加横摆转矩;Fdesl为期望总纵向力;si为当前状态;ai为当前状态si下执行的动作;star_i为当前状态si下的目标状态;ri为当前状态si下执行动作获得的奖励;γ为折扣因子,用来衡量未来奖励的重要性;Q′为策略网络,Q′si+1,ψ'si+1|θψ'θQ′为目标状态下累计奖励的估计值,由Critic网络给出,ψ'si+1|θψ'为Actor网络输出的动作;ψ'si+1|θμ′为Actor目标网络参数θψ'下状态si+1生成的动作;θ为神经网络的参数;θψ'为Actor目标网络参数;θψ为Actor当前网络参数;θQ′为Critic目标网络参数;θQ为Critic当前网络参数;Ypre_i为预测的Q值;Q为动作价值函数;JθQ为均方根误差损失函数;n为随机选取的样本数量;ytari为目标Q值,是通过Bellman方程计算得到的,表示当前状态si下执行动作ai后的理论最优Q值;Jθψ为损失函数;Qsi,ai∣θψ为参数θψ下对于状态si选择的动作ai的Q值;αψ为学习率,是一个超参数,学习率越大,每次更新对参数的影响越大,反之,影响越小;为损失函数Jθψ关于参数θψ的梯度;梯度表示了在当前参数下损失函数增加最快的方向;通过朝着梯度的反方向更新参数,试图减小损失函数;为当前状态对应动作的动作价值函数梯度,即当前状态s=sj下采取动作Ψ's=sj时,关于动作的动作价值函数梯度;为Actor网络的当前状态对应动作的动作函数梯度,即Actor当前网络参数为θΨ,当前状态s=sj下,动作函数梯度;τ为DDPG-AAD模型的软更新系数。

全文数据:

权利要求:

百度查询: 北京航空航天大学 基于DDPG的分布式电驱动车辆的AFS、ARS和DYC协同控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。