Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东大学

摘要:本发明公开了一种基于强化动态学习的2‑DOF直升机多轨迹跟踪控制方法及系统,涉及自动控制技术领域。该方法包括步骤:获取直升机姿态参数,根据姿态信息建立动力学模型;根据动力学模型设计自适应神经网络,并基于滑模控制策略为自适应神经网络设计学习控制器;利用强化学习框架对学习控制器进行动态调整,得到最终的控制器;利用最终的控制器进行直升机多轨迹跟踪控制。本发明通过引入强化学习框架来动态补偿学习轨迹与参考轨迹的误差,能够发挥确定学习的稳定性和强化学习的最优性,实现高效准确的直升机多轨迹跟踪控制。

主权项:1.一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法,其特征在于,包括以下步骤:获取直升机姿态参数,根据姿态信息建立动力学模型;根据动力学模型设计自适应神经网络,并基于滑模控制策略为自适应神经网络设计学习控制器;所述基于滑模控制策略为自适应神经网络设计学习控制器的具体公式包括:滑模面的设计:S=-C1E1+E2,其中,S为滑膜面,E1=Z1和Z1为跟踪误差变量,为Z1的时间微分,C1是可调的控制增益;理想控制器的设计为: 其中,τ*t为理想控制器函数,C2是可调控制增益正数,Kg为自适应参数,其中,Ha,分别是动作神经网络的最优权重,估计误差,径向基函数和神经网络的输入向量,是指在时间区间[ta,tb]内的对求平均值,为估计权重,是网络输入向量的高斯径向基函数,sign·是符号函数;利用强化学习框架对学习控制器进行动态调整,得到最终的控制器,其中,强化学习框架包括评价神经网络和动作神经网络,评判神经网络对当前状态的价值进行估计,估计结果用于指导执行神经网络选择动作;所述最终控制器为: 其中,τt为最终控制器函数,为未知参数Kg的估计值,其中,是动作神经网络的估计权重,ΨS=diag[signs1,signs2];动作神经网络的权重更新率设计为: 其中,「a是更新增益,KL是评判神经网络对动作神经网络的影响因子,Hc,分别是评价神经网络的估计权重,径向基函数和神经网络的输入向量,σa是很小的正常数;利用最终的控制器进行直升机多轨迹跟踪控制。

全文数据:

权利要求:

百度查询: 山东大学 基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术