Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的自适应单关节伺服PID控制方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明涉及伺服控制技术领域,尤其涉及基于深度强化学习的自适应单关节伺服PID控制方法及系统,该方法首先搭建单关节伺服PID系统,利用传感器收集被控对象与执行器运行过程中的参数数据;并基于SAC与PID算法构建自适应SCA_PID分层控制器,并利用收集的参数数据对分层控制器进行优化训练,以获取单关节伺服控制器;将训练完成的控制器部署到不同真实运行环境中,并收集不同环境下的参数数据;利用收集到的不同环境参数数据对训练完成的分层控制器中进行微调,以获取二次优化的单关节伺服控制器;本发明通过上述持续更新优化过程不仅提升了控制方法的精度,更进一步提升了系统的适应性和鲁棒性。

主权项:1.基于深度强化学习的自适应单关节伺服PID控制方法,其特征在于,包括以下步骤:S1:搭建单关节伺服PID系统,包括被控对象、传感器、执行器,并利用传感器收集被控对象与执行器运行的参数数据;S2:基于SAC与PID算法构建自适应SCA_PID分层控制器,利用收集到的参数数据构建输入状态,利用输入状态对构建的分层控制器在虚拟环境中进行优化训练,获取单关节伺服控制器;S3:将训练完成的上述单关节伺服控制器部署到不同真实运行环境中控制具体的被控对象执行具体任务,并将在不同环境下执行具体任务获取的不同环境参数数据通过传感器上传虚拟环境预处理并保存;S4:利用S3中获取的不同环境参数数据构建新的状态输入到训练完的自适应SCA_PID分层控制器进行微调,获取二次优化的单关节伺服控制器,并利用二次优化的单关节伺服控制器执行具体控制任务;所述传感器收集被控对象与执行器运行的参数数据包括被控对象在o-xyz坐标系中每一个坐标分量对应的实际位置数据和设定位置数据、被控对象在三个坐标方向对应的实际角速度的分量数据和期望角速度分量数据、角加速度数据,以及伺服系统负载力N;所述输入状态包括被控对象的位置坐标误差、角速度坐标误差、角加速度和负载力N;所述位置坐标误差包括:,,,其中、和依次表示被控对象实际位置数据与设定位置数据在坐标轴x、y、z方向上的误差;所述角速度坐标误差包括:,,,其中、和依次表示被控对象实际角速度的分量数据与期望角速度分量数据在坐标轴x、y、z方向上的误差;所述自适应SCA_PID分层控制器包括自适应SCA上层决策器和基于PID算法的下层控制器,所述自适应SCA上层决策器包括策略网络、目标策略网络、第一评价网络、第一目标评价网络、第二评价网络、第二目标评价网络和改进经验回放池B;所述策略网络和目标策略网络由结构相同的第一神经网络构成,所述第一神经网络包括第一全连接层、ReLU层、高斯分布层、Tanh层;所述第一评价网络、第一目标评价网络、第二评价网络、第二目标评价网络由结构相同的第二神经网络构成,所述第二神经网络包括第一全连接层、ReLU层、第二全连接层、ReLU层和第二全连接层;所述第一评价网络与第一目标评价网络对应,所述第二评价网络与第二目标评价网络对应;所述自适应SCA上层决策器,用于根据被控对象所生成的状态参数数据来生成下层控制器输出动作的动态调节量;所述基于PID算法的下层控制器,用于根据自身输入参数与输入的动态调节量来控制被控对象;所述策略网络,用于输入当前状态st,计算得到所有执行动作的概率;所述目标策略网络,用于延时策略网络的参数,并根据从改进经验回放池抽取的下一时间步状态,生成下一时间步的执行动作;所述下一时间步状态从改进经验回放池B中抽样获取;所述第一评价网络,用于根据t时刻输入状态st和所有动作的概率,计算得到当前动作状态评估值;所述第二评价网络,用于根据下一时间步状态和下一时间步的执行动作计算得到下一时刻动作状态评估值;所述第一目标评价网络与第二目标评价网络都用于更新对应评价网络参数,并固定目标值函数,加快收敛速度;所述改进经验回放池B,用于存储经验样本数据,并对存储的历史经验样本数据分层保存;所述改进经验回放池B包括普通经验回放池B1和特殊经验回放池B2;所述普通经验回放池B1,用于存储低质量经验样本数据;所述特殊经验回放池B2,用于存储高质量的经验样本数据;所述经验样本数据的质量利用经验样本数据的混合优先度表示,具体如下:,其中表示第i个经验样本数据混合优先度,表示第i个经验样本数据目标优先度,表示第i个经验样本数据的TD误差;所述经验样本数据目标优先度表示被控对象在当前状态和下一时刻状态下的目标优先度差值的绝对值,具体如下:,,;其中,表示第i个经验样本数据目标优先度,表示抽取的第i个经验样本数据在下一时刻状态下目标优先度,表示抽取的第i个经验样本数据在当前时刻状态下目标优先度;表示第i个经验样本数据在下一时刻状态下被控对象离目标点距离与初始距离的比值;表示第i个经验样本数据在当前时刻状态下被控对象离目标点距离与初始距离的比值;所述普通经验回放池B1和特殊经验回放池B2划分的标准为:,其中,表示经验样本数据混合优先度阈值,当时将经验样本数据存储在特殊经验回放池B2,否则存储在普通经验回放池B1;所述S2中分层控制器优化训练的具体过程包括:S501:随机初始化所述策略网络对应的网络参数、目标策略网络对应的网络参数、第一评价网络对应的网络参数、第一目标评价网络对应的网络参数、第二评价网络对应的网络参数和第二目标评价网络对应的网络参数以及PID算法中的初始参数、和;S502:利用经过随机初始化的网络执行n次策略网络,来初始化改进经验回放池B,并依据所述经验样本数据的混合优先度对初始化的经验样本数据分别保存在普通经验回放池B1和特殊经验回放池B2;S503:将构建的所述输入状态,输入到策略网络,计算并选择一个当前单关节伺服PID系统的三维动态动作调节量;S504:将获取的三维动态动作调节量输入到基于PID算法的下层控制器与初始参数值动态融合获取单关节伺服PID系统的动态调节参数,并利用获取的动态调节参数与被控对象的位置误差,计算伺服PID系统的输出控制量,具体如下: , , ,其中,表示伺服PID系统在t时刻的输出控制量,,,依次表示基于PID算法的下层控制器的最终比例系数动态参数、积分时间动态参数和微分时间动态参数,依次表示基于PID算法的下层控制器的初始化比例系数参数、积分时间参数和微分时间参数,依次表示自适应SCA上层决策器输出的比例系数动态动作调节量、积分时间动态动作调节量和微分时间动态动作调节量;依次表示对应的偏移量;表示控制系统运行的一个周期长度;S505:利用控制量控制被控对象,得到对应工作环境中的下一个状态和对应的组合式奖励,并将得到的组存储在对应的改进经验回放池B中;S506:从普通经验回放池B1和特殊经验回放池B2中按照7:3的比例抽取一个批次的经验样本数据,通过时序差分方法最小化从当前状态动作对到下一时刻状态动作对价值估计的损失函数,对第一评价网络和第二评价网络进行更新,具体过程如下: , ,其中,表示从当前状态动作对到下一时刻状态动作对价值估计的损失函数,表示对下一时刻动作的估计,表示从当前状态动作对到下一时间步状态动作对在获取奖励的情况下的最小损失期望值;表示从经验样本数据中抽取的当前状态动作价值评估值,表示智能体执行从经验样本数据中抽取的当前状态动作获取的奖励值,表示折扣因子;表示智能体选取的下一时间步最小动作价值评估值;表示从经验样本数据中抽取的下一时间步动作价值评估值,表示当前时刻对应下一时刻动作价值评估值;所述策略网络通过最大化评价网络估计的未来奖励值进行更新,其损失函数表示为: ,其中,表示策略网络更新损失函数,表示输入高斯噪声,表示当前状态和动作状态价值的评估值;所述组合式奖励构建的具体过程包括: , ,其中,表示位置误差奖励,表示t-1时刻与t时刻误差比较奖励,表示角速度误差奖励,表示角加速度奖励,表示负载力奖励,表示内部奖励;依次表示对应奖励的负增益系数;表示被控对象设定的最大重量;表示角速度在空间中的误差;所述S506中抽取一个批次的经验样本数据的具体步骤过程包括:S701:利用随机采样的方法从特殊经验回放池B2中抽取经验样本数据;S702:利用优先度概率抽样方法从普通经验回放池B1抽取经验样本数据,具体如下: , ,其中,表示第i个经验样本数据的离散度,表示第i个经验样本数据的混合优先度,表示普通经验回放池B1中所有样本混合优先度的均值,表示一个小于预设值的正常数,以保证经验池中的每个样本的优先度不为0;表示第i个经验样本数据的采样概率,K表示普通经验回放池B1中经验样本数据总数,表示经验样本数据混合优先度的调节因子;所述单关节伺服控制器二次优化,采用一种联邦策略,具体过程包括:S801:在虚拟环境中开辟n个不同的虚拟子进程,并将不同环境参数数据通过传感器上传到n个虚拟子进程中保存;所述n个虚拟子进程中每一个虚拟子进程都包含一个对应特有的环境,且n个虚拟子进程相互独立;S802:将S2中构建并训练完成的自适应SCA_PID分层控制器作为主进程,并将主进程中构建和训练完成的自适应SCA_PID分层控制器复制到n个虚拟子进程中,利用子进程中保存的环境参数数据对所述训练完成的自适应SCA_PID分层控制器进行微调;S803:将微调后的n个子进程中分层控制器的梯度参数上传到主进程的分层控制器中,主进程中的分层控制器利用n个子进程上传的梯度参数,更新网络中的参数及权重;获取单关节伺服控制器二次优化后的自适应SCA_PID分层控制器;S804:当单关节伺服控制器增加新的环境参数数据时,利用收集的新环境参数数据,覆盖原有n个子进程中利用率最低子进程中保存的参数数据,并利用新的环境参数数据完成单关节伺服控制器的持续更新。

全文数据:

权利要求:

百度查询: 法睿科(苏州)智能科技有限公司 基于深度强化学习的自适应单关节伺服PID控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。