一种基于SAC强化学习算法的智能运动控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：吉林大学

摘要：本发明适用于安全巡逻技术领域，提供了一种基于SAC强化学习算法的智能运动控制方法，包括以下步骤：定义状态空间和动作空间：将起点坐标、当前坐标、终点坐标以及周围环境信息这些状态变量组合成一个状态空间，动作空间包括转向角度和施加在车辆上的加速度；数据收集与预训练：在实际场地进行车辆测试并收集数据用于训练；构建强化学习模型并对模型进行训练；智能巡逻与异常检测。本发明利用智能体的智能运动控制技术和实时监测设备，结合强化学习算法，使智能体能够基于所处环境状态做出最优运动决策，动态调整巡逻路线，优化覆盖范围，并能即时识别并响应异常情况，以解决传统巡逻方法的局限性，提高巡逻效率和安全性。

主权项：1.一种基于SAC强化学习算法的智能运动控制方法，其特征在于，包括以下步骤：步骤S1、定义状态空间和动作空间；步骤S2、数据收集与预训练；步骤S3、构建强化学习模型并对模型进行训练；步骤S4、智能巡逻与异常检测；所述步骤S2的具体操作为：由人工操控车辆在不同环境和轨迹下间隔0.05秒收集运动数据，即经验，并根据奖励函数计算奖励值，将经验加入回放缓冲区用于模型的前期训练；所述奖励函数如下：；；；；其中，为最终奖励函数；为引导智能体完成运动控制任务的奖励项，中分别为智能体在当前时刻的横纵坐标，分别为终点的横纵坐标；为智能体发现异常场景的奖励项；为预防智能体自身处于特殊状态下的惩罚项，其中代表加速度的绝对值，是车辆与周围障碍物的距离，是速度；、中是指示函数，括号内为判断条件，若判断条件不成立，则指示函数取值为0；若判断条件成立，则指示函数取值为1；所述步骤S3中，强化学习训练模型包括评论家网络和行动者网络，行动者网络根据输入的状态给出动作决策，评论家网络根据对动作决策打分来指导行动者网络迭代改进；评论家网络和行动者网络均采用具有双隐藏层的全连接网络，隐藏层含有256个神经单元，每个单元使用ReLU激活函数；其中包括：评论家网络的输入维度是状态信息维度加上动作维度，输出维度是1；评论家网络输入状态信息、决策动作，经过全连接层后，输出状态价值；行动者网络的输入维度是状态信息维度，输出维度是2；行动者网络输入状态信息，经过全连接层后，输出均值和方差，然后通过采样得到决策动作，其中N是高斯分布；所述步骤S3中，强化学习模型的更新过程如下：步骤S31：初始化空的回放缓冲区B，初始化智能体起点坐标，终点坐标；步骤S32、初始化评论家网络和行动者网络；步骤S33、根据初始化目标评论家网络；步骤S34、for1toT；之后的步骤重复执行训练时间步数T次；步骤S35、在状态执行动作计算奖励并得到环境中的下一个状态；步骤S36、将经验样本存储到回放缓冲区B中；步骤S37、从回放缓冲区随机采样N个经验样本用于神经网络训练和模型参数更新；步骤S38、End，结束步骤S34中for循环语句；所述步骤S37的具体过程如下：步骤S371、计算目标值：；其中，为由环境返回的立即奖励，为折扣因子，为评论家目标网络输出的值，为下一个时刻状态，为行动者网络根据状态给出的动作决策；步骤S372、更新评论家网络：；其中，为评论家网络参数，N为从经验回放缓冲区采样的批量大小，为评论家网络的预测值；y为目标值；步骤S373、更新行动者网络：；其中，为采样批量大小，为第个评论家网络预测的值，为衰减因子，为行动者网络，为参数；为动作；为当前状态；步骤S374、更新目标网络：；其中，为第i个目标网络参数，为平滑更新系数，为第i个评论家网络参数。

全文数据：

权利要求：

百度查询：吉林大学一种基于SAC强化学习算法的智能运动控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：显示装置

下一篇：温度控制方法、装置、系统及计算机设备

相关技术

显示装置

温度控制方法、装置、系统及计算机设备

一种红松生长影响因素获取系统

一种考虑可靠性及经济性的配电网承载力精细化评估方法

一种双配体有机框架材料

基于城市地理信息数据与多维属性数据的智能规划审查方法

一种高取代氟化壳聚糖及其制备方法

一种铸造铝合金熔体净化处理的方法及装置

一种衬衫的无甲醛抗菌免烫整理工艺

一种热电芯片的制作方法

一种新型数据线缆及其接口装置

一种智能围棋教学系统

学习相关技术

设备诊断系统、学习装置、已学习模型和已学习模型的生成方法_三菱电机株式会社_202380020059.4

已学习模型验证系统_三菱电机株式会社_202280091859.0

学习装置、处理装置、学习方法、姿势检测模型、程序及存储介质_株式会社东芝_202280091814.3

机器学习智能派工系统及由机器学习进行智能派工的方法_联芯集成电路制造(厦门)有限公司_202310289849.4

一种基于路由选择与原型学习的主动增量学习方法_西北工业大学_202410845596.9

学习可压缩的特征_谷歌有限责任公司_201980004446.2

主动学习以改善晶片缺陷分类_ASML荷兰有限公司_202380021046.9

学习模型产生装置、学习模型产生方法及存储着学习模型产生程序的计算机可读媒介_株式会社斯库林集团_202410333646.5

基于自步学习与个性化联邦学习的多中心数据处理方法_中国科学院自动化研究所_202411166576.5

基于深度学习的图像数据标注系统及其方法_传申弘安智能(深圳)有限公司_202210090745.6

智能相关技术

智能终端_深圳市泰衡诺科技有限公司_202322896709.1

一种智能小车车身及智能小车_佛山职业技术学院_202420429283.0

基于人工智能的焊缝智能检测平台_扬州市职业大学(扬州开放大学)_202410901157.5

一种智能锁面板以及智能锁_浙江科熊智能科技有限公司_202420219229.3

基于人工智能的电力智能调度方法_国家电网有限公司_202410406721.6

用于控制智能空调的方法及装置、智能空调_青岛海尔空调器有限总公司_202111315913.9

一种智能母线智能检测装置_威腾电气集团股份有限公司_202410962545.4

智能眼镜的镜腿及智能眼镜_奥维兹昂科技私人有限公司_202322971545.4

一种智能开关及智能家居_华为技术有限公司_202322899637.6

智能电能表_南京能瑞自动化设备股份有限公司_202420075347.1

算法相关技术

基于电机检测的捕获电流算法_厦门博维特电气科技有限公司_202410710179.3

机械臂末端控制轨迹智能规划算法_上海摩马智能科技有限公司_202211148470.3

基于粒子群算法的电台个体识别方法_山东大学_202011335407.1

基于Unity引擎的停电范围动态识别算法_威创软件南京有限公司_202411162210.0

一种Contourlet域彩色图像水印算法_泉州医学高等专科学校_202411160712.X

用于血泵的多输入速度响应算法_心脏器械股份有限公司_201980024810.1

基于SIFT和图像拆分的鲁棒水印算法_淮阴工学院_202310585637.0

一种医保通信网关算法及系统_武汉美捷科技有限公司_202410712385.8

基于多种算法组合的滑坡位移预测方法_贵州大学_202111599402.4

一种基于云计算的算法租赁系统_福建纵点科技有限公司_202410691633.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于SAC强化学习算法的智能运动控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务