首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于SAC强化学习算法的智能运动控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学

摘要:本发明适用于安全巡逻技术领域,提供了一种基于SAC强化学习算法的智能运动控制方法,包括以下步骤:定义状态空间和动作空间:将起点坐标、当前坐标、终点坐标以及周围环境信息这些状态变量组合成一个状态空间,动作空间包括转向角度和施加在车辆上的加速度;数据收集与预训练:在实际场地进行车辆测试并收集数据用于训练;构建强化学习模型并对模型进行训练;智能巡逻与异常检测。本发明利用智能体的智能运动控制技术和实时监测设备,结合强化学习算法,使智能体能够基于所处环境状态做出最优运动决策,动态调整巡逻路线,优化覆盖范围,并能即时识别并响应异常情况,以解决传统巡逻方法的局限性,提高巡逻效率和安全性。

主权项:1.一种基于SAC强化学习算法的智能运动控制方法,其特征在于,包括以下步骤:步骤S1、定义状态空间和动作空间;步骤S2、数据收集与预训练;步骤S3、构建强化学习模型并对模型进行训练;步骤S4、智能巡逻与异常检测;所述步骤S2的具体操作为:由人工操控车辆在不同环境和轨迹下间隔0.05秒收集运动数据,即经验,并根据奖励函数计算奖励值,将经验加入回放缓冲区用于模型的前期训练;所述奖励函数如下: ; ; ; ;其中,为最终奖励函数;为引导智能体完成运动控制任务的奖励项,中分别为智能体在当前时刻的横纵坐标,分别为终点的横纵坐标;为智能体发现异常场景的奖励项;为预防智能体自身处于特殊状态下的惩罚项,其中代表加速度的绝对值,是车辆与周围障碍物的距离,是速度;、中是指示函数,括号内为判断条件,若判断条件不成立,则指示函数取值为0;若判断条件成立,则指示函数取值为1;所述步骤S3中,强化学习训练模型包括评论家网络和行动者网络,行动者网络根据输入的状态给出动作决策,评论家网络根据对动作决策打分来指导行动者网络迭代改进;评论家网络和行动者网络均采用具有双隐藏层的全连接网络,隐藏层含有256个神经单元,每个单元使用ReLU激活函数;其中包括:评论家网络的输入维度是状态信息维度加上动作维度,输出维度是1;评论家网络输入状态信息、决策动作,经过全连接层后,输出状态价值;行动者网络的输入维度是状态信息维度,输出维度是2;行动者网络输入状态信息,经过全连接层后,输出均值和方差,然后通过采样得到决策动作,其中N是高斯分布;所述步骤S3中,强化学习模型的更新过程如下:步骤S31:初始化空的回放缓冲区B,初始化智能体起点坐标,终点坐标;步骤S32、初始化评论家网络和行动者网络;步骤S33、根据初始化目标评论家网络;步骤S34、for1toT;之后的步骤重复执行训练时间步数T次;步骤S35、在状态执行动作计算奖励并得到环境中的下一个状态;步骤S36、将经验样本存储到回放缓冲区B中;步骤S37、从回放缓冲区随机采样N个经验样本用于神经网络训练和模型参数更新;步骤S38、End,结束步骤S34中for循环语句;所述步骤S37的具体过程如下:步骤S371、计算目标值: ;其中,为由环境返回的立即奖励,为折扣因子,为评论家目标网络输出的值,为下一个时刻状态,为行动者网络根据状态给出的动作决策;步骤S372、更新评论家网络: ;其中,为评论家网络参数,N为从经验回放缓冲区采样的批量大小,为评论家网络的预测值;y为目标值;步骤S373、更新行动者网络: ;其中,为采样批量大小,为第个评论家网络预测的值,为衰减因子,为行动者网络,为参数;为动作;为当前状态;步骤S374、更新目标网络: ;其中,为第i个目标网络参数,为平滑更新系数,为第i个评论家网络参数。

全文数据:

权利要求:

百度查询: 吉林大学 一种基于SAC强化学习算法的智能运动控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。