基于深度强化学习的自适应单关节伺服PID控制方法及系统

导航：龙图腾网> 最新专利技术> 基于深度强化学习的自适应单关节伺服PID控制方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明涉及伺服控制技术领域，尤其涉及基于深度强化学习的自适应单关节伺服PID控制方法及系统，该方法首先搭建单关节伺服PID系统，利用传感器收集被控对象与执行器运行过程中的参数数据；并基于SAC与PID算法构建自适应SCA_PID分层控制器，并利用收集的参数数据对分层控制器进行优化训练，以获取单关节伺服控制器；将训练完成的控制器部署到不同真实运行环境中，并收集不同环境下的参数数据；利用收集到的不同环境参数数据对训练完成的分层控制器中进行微调，以获取二次优化的单关节伺服控制器；本发明通过上述持续更新优化过程不仅提升了控制方法的精度，更进一步提升了系统的适应性和鲁棒性。

主权项：1.基于深度强化学习的自适应单关节伺服PID控制方法，其特征在于，包括以下步骤：S1：搭建单关节伺服PID系统，包括被控对象、传感器、执行器，并利用传感器收集被控对象与执行器运行的参数数据；S2：基于SAC与PID算法构建自适应SCA_PID分层控制器，利用收集到的参数数据构建输入状态，利用输入状态对构建的分层控制器在虚拟环境中进行优化训练，获取单关节伺服控制器；S3：将训练完成的上述单关节伺服控制器部署到不同真实运行环境中控制具体的被控对象执行具体任务，并将在不同环境下执行具体任务获取的不同环境参数数据通过传感器上传虚拟环境预处理并保存；S4：利用S3中获取的不同环境参数数据构建新的状态输入到训练完的自适应SCA_PID分层控制器进行微调，获取二次优化的单关节伺服控制器，并利用二次优化的单关节伺服控制器执行具体控制任务；所述传感器收集被控对象与执行器运行的参数数据包括被控对象在o-xyz坐标系中每一个坐标分量对应的实际位置数据和设定位置数据、被控对象在三个坐标方向对应的实际角速度的分量数据和期望角速度分量数据、角加速度数据，以及伺服系统负载力N；所述输入状态包括被控对象的位置坐标误差、角速度坐标误差、角加速度和负载力N；所述位置坐标误差包括：，，，其中、和依次表示被控对象实际位置数据与设定位置数据在坐标轴x、y、z方向上的误差；所述角速度坐标误差包括：，，，其中、和依次表示被控对象实际角速度的分量数据与期望角速度分量数据在坐标轴x、y、z方向上的误差；所述自适应SCA_PID分层控制器包括自适应SCA上层决策器和基于PID算法的下层控制器，所述自适应SCA上层决策器包括策略网络、目标策略网络、第一评价网络、第一目标评价网络、第二评价网络、第二目标评价网络和改进经验回放池B；所述策略网络和目标策略网络由结构相同的第一神经网络构成，所述第一神经网络包括第一全连接层、ReLU层、高斯分布层、Tanh层；所述第一评价网络、第一目标评价网络、第二评价网络、第二目标评价网络由结构相同的第二神经网络构成，所述第二神经网络包括第一全连接层、ReLU层、第二全连接层、ReLU层和第二全连接层；所述第一评价网络与第一目标评价网络对应，所述第二评价网络与第二目标评价网络对应；所述自适应SCA上层决策器，用于根据被控对象所生成的状态参数数据来生成下层控制器输出动作的动态调节量；所述基于PID算法的下层控制器，用于根据自身输入参数与输入的动态调节量来控制被控对象；所述策略网络，用于输入当前状态st，计算得到所有执行动作的概率；所述目标策略网络，用于延时策略网络的参数，并根据从改进经验回放池抽取的下一时间步状态，生成下一时间步的执行动作；所述下一时间步状态从改进经验回放池B中抽样获取；所述第一评价网络，用于根据t时刻输入状态st和所有动作的概率，计算得到当前动作状态评估值；所述第二评价网络，用于根据下一时间步状态和下一时间步的执行动作计算得到下一时刻动作状态评估值；所述第一目标评价网络与第二目标评价网络都用于更新对应评价网络参数，并固定目标值函数，加快收敛速度；所述改进经验回放池B，用于存储经验样本数据，并对存储的历史经验样本数据分层保存；所述改进经验回放池B包括普通经验回放池B1和特殊经验回放池B2；所述普通经验回放池B1，用于存储低质量经验样本数据；所述特殊经验回放池B2，用于存储高质量的经验样本数据；所述经验样本数据的质量利用经验样本数据的混合优先度表示，具体如下：，其中表示第i个经验样本数据混合优先度，表示第i个经验样本数据目标优先度，表示第i个经验样本数据的TD误差；所述经验样本数据目标优先度表示被控对象在当前状态和下一时刻状态下的目标优先度差值的绝对值，具体如下：，，；其中，表示第i个经验样本数据目标优先度，表示抽取的第i个经验样本数据在下一时刻状态下目标优先度，表示抽取的第i个经验样本数据在当前时刻状态下目标优先度；表示第i个经验样本数据在下一时刻状态下被控对象离目标点距离与初始距离的比值；表示第i个经验样本数据在当前时刻状态下被控对象离目标点距离与初始距离的比值；所述普通经验回放池B1和特殊经验回放池B2划分的标准为：，其中，表示经验样本数据混合优先度阈值，当时将经验样本数据存储在特殊经验回放池B2，否则存储在普通经验回放池B1；所述S2中分层控制器优化训练的具体过程包括：S501：随机初始化所述策略网络对应的网络参数、目标策略网络对应的网络参数、第一评价网络对应的网络参数、第一目标评价网络对应的网络参数、第二评价网络对应的网络参数和第二目标评价网络对应的网络参数以及PID算法中的初始参数、和；S502：利用经过随机初始化的网络执行n次策略网络，来初始化改进经验回放池B，并依据所述经验样本数据的混合优先度对初始化的经验样本数据分别保存在普通经验回放池B1和特殊经验回放池B2；S503：将构建的所述输入状态，输入到策略网络，计算并选择一个当前单关节伺服PID系统的三维动态动作调节量；S504：将获取的三维动态动作调节量输入到基于PID算法的下层控制器与初始参数值动态融合获取单关节伺服PID系统的动态调节参数，并利用获取的动态调节参数与被控对象的位置误差，计算伺服PID系统的输出控制量，具体如下：，，，其中，表示伺服PID系统在t时刻的输出控制量，，，依次表示基于PID算法的下层控制器的最终比例系数动态参数、积分时间动态参数和微分时间动态参数，依次表示基于PID算法的下层控制器的初始化比例系数参数、积分时间参数和微分时间参数，依次表示自适应SCA上层决策器输出的比例系数动态动作调节量、积分时间动态动作调节量和微分时间动态动作调节量；依次表示对应的偏移量；表示控制系统运行的一个周期长度；S505：利用控制量控制被控对象，得到对应工作环境中的下一个状态和对应的组合式奖励，并将得到的组存储在对应的改进经验回放池B中；S506：从普通经验回放池B1和特殊经验回放池B2中按照7：3的比例抽取一个批次的经验样本数据，通过时序差分方法最小化从当前状态动作对到下一时刻状态动作对价值估计的损失函数，对第一评价网络和第二评价网络进行更新，具体过程如下：，，其中，表示从当前状态动作对到下一时刻状态动作对价值估计的损失函数，表示对下一时刻动作的估计，表示从当前状态动作对到下一时间步状态动作对在获取奖励的情况下的最小损失期望值；表示从经验样本数据中抽取的当前状态动作价值评估值，表示智能体执行从经验样本数据中抽取的当前状态动作获取的奖励值，表示折扣因子；表示智能体选取的下一时间步最小动作价值评估值；表示从经验样本数据中抽取的下一时间步动作价值评估值，表示当前时刻对应下一时刻动作价值评估值；所述策略网络通过最大化评价网络估计的未来奖励值进行更新，其损失函数表示为：，其中，表示策略网络更新损失函数，表示输入高斯噪声，表示当前状态和动作状态价值的评估值；所述组合式奖励构建的具体过程包括：，，其中，表示位置误差奖励，表示t-1时刻与t时刻误差比较奖励，表示角速度误差奖励，表示角加速度奖励，表示负载力奖励，表示内部奖励；依次表示对应奖励的负增益系数；表示被控对象设定的最大重量；表示角速度在空间中的误差；所述S506中抽取一个批次的经验样本数据的具体步骤过程包括：S701：利用随机采样的方法从特殊经验回放池B2中抽取经验样本数据；S702：利用优先度概率抽样方法从普通经验回放池B1抽取经验样本数据，具体如下：，，其中，表示第i个经验样本数据的离散度，表示第i个经验样本数据的混合优先度，表示普通经验回放池B1中所有样本混合优先度的均值，表示一个小于预设值的正常数，以保证经验池中的每个样本的优先度不为0；表示第i个经验样本数据的采样概率，K表示普通经验回放池B1中经验样本数据总数，表示经验样本数据混合优先度的调节因子；所述单关节伺服控制器二次优化，采用一种联邦策略，具体过程包括：S801：在虚拟环境中开辟n个不同的虚拟子进程，并将不同环境参数数据通过传感器上传到n个虚拟子进程中保存；所述n个虚拟子进程中每一个虚拟子进程都包含一个对应特有的环境，且n个虚拟子进程相互独立；S802：将S2中构建并训练完成的自适应SCA_PID分层控制器作为主进程，并将主进程中构建和训练完成的自适应SCA_PID分层控制器复制到n个虚拟子进程中，利用子进程中保存的环境参数数据对所述训练完成的自适应SCA_PID分层控制器进行微调；S803：将微调后的n个子进程中分层控制器的梯度参数上传到主进程的分层控制器中，主进程中的分层控制器利用n个子进程上传的梯度参数，更新网络中的参数及权重；获取单关节伺服控制器二次优化后的自适应SCA_PID分层控制器；S804：当单关节伺服控制器增加新的环境参数数据时，利用收集的新环境参数数据，覆盖原有n个子进程中利用率最低子进程中保存的参数数据，并利用新的环境参数数据完成单关节伺服控制器的持续更新。

全文数据：

权利要求：

百度查询：法睿科(苏州)智能科技有限公司基于深度强化学习的自适应单关节伺服PID控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种应用于火电厂数据跨区同步的通讯系统及通讯方法

下一篇：一种有机电致发光驱动电路故障诊断优化方法

相关技术

一种应用于火电厂数据跨区同步的通讯系统及通讯方法

一种有机电致发光驱动电路故障诊断优化方法

一种平面距离测量机构

信号控制模块及制氢设备

一种芳基咪唑类化合物及其制备方法和制备的药学产品

一种基于SONiC操作系统的可插拔设备管理方法和装置

一种铂-二氧化铈催化剂、其制备方法及其应用

一种配电网旁路电缆预留连接器

客服系统的控制方法、设备及计算机可读存储介质

视频编码中的子块编码推断

一种定子冲片收料装置

一种水利工程水渠格栅控制系统及控制方法

单相关技术

单髁股骨假体_苏州微创关节医疗科技有限公司_201910098530.7

一种单火线智能开关及单火线多控开关_漳州立达信光电子科技有限公司_202110139055.0

一种集成磁齿轮的单定子单转子轴向磁场电机_浙江电驱动创新中心有限公司_202420667759.4

一种单芯电缆_成都至匀元网络科技有限公司_202411535114.6

一种单桩运输支架_浙江益顺风电设备有限公司_202323660739.9

铁心单框的整形方法_广东电网有限责任公司_202411415393.2

一种辅助翻身单_北京市顺义区中医医院(北京中医医院顺义医院)_202420599076.X

微单镜头及微单相机_东莞市宇承科技有限公司_202420859951.3

聚集性单壁碳纳米管、单壁碳纳米管纤维材料及其制法_江西铜业技术研究院有限公司_202411166669.8

差分输入单端输出放大器及抗单粒子瞬态效应的加固方法_中国人民解放军国防科技大学_202111500958.3

伺服相关技术

一种单板伺服驱动器及伺服驱动系统_固高伺创驱动技术(深圳)有限公司_202420041274.4

双机联动伺服型折弯机_马鞍山市中亚机床制造有限公司_202323369678.0

一种伺服电机检测设备_上海翡叶动力科技有限公司_202420872038.7

一种伺服电机检测装置_西安交通工程学院_202323086809.4

一种伺服挤出设备_成都卡诺普机器人技术股份有限公司_202323631402.5

一种大流量伺服阀及其控制方法_中航工业南京伺服控制系统有限公司_202311802673.4

一种便于维修的伺服驱动器_上海尔川数控技术集团有限公司_202420614616.7

一种伺服驱动器的散热结构_黄石市科威自控有限公司_202420406550.2

一种具有散热功能的伺服电机_上海霄武科技有限公司_202420597299.2

双向正向力伺服驱动启闭机结构_兰州时昶水工机械有限公司_202010414410.6

关节相关技术

一种骨科关节辅助修复方法及骨科关节置换辅助装置_广东省中医院海南医院_202410647620.8

积木关节结构及玩偶_上海布鲁可科技集团有限公司_202411211279.8

关节模组及机器人_中国科学技术大学_202411529843.0

用于人体关节的保护设备_根特大学_202111434248.5

一种关节式柔性给油装置_中冶华天南京工程技术有限公司_202411352437.1

向心关节轴承耐久试验装置_芜湖如一轴承有限公司_202420615331.5

中医小夹板肩关节外固定系统_芜湖普敦特医疗器械有限公司_201811022825.8

膝关节腔置入导管手术器_邢振龙_202322460638.0

一种关节模组及机器人_广东拓斯达科技股份有限公司_202323530922.7

外部旋转关节及机械臂机构_深圳康诺思腾科技有限公司_202310620320.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于深度强化学习的自适应单关节伺服PID控制方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务