一种基于上下文状态和动作权重的强化学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：安徽大学

摘要：本发明涉及智能体强化学习技术领域，尤其涉及一种基于上下文状态和动作权重的强化学习方法，该方法包括以下步骤：在基于Mujoco框架的连续动作控制环境中，获取机器人与环境进行交互所产生的状态数据信息；基于状态数据信息对执行动作预测模型进行训练以及测试，将由环境反馈的实时状态信息输入执行动作预测模型中输出对应预测的执行动作。本发明加强了网络模型对未来状态的表征能力，可以开阔网络模型在智能体与环境交互过程中的全局视野，以帮助网络模型更好地捕捉到未来状态信息和状态之间的关联，提高了样本数据的利用效率，增强了强化学习方法，使得在连续动作控制环境任务中取得了理想的效果。

主权项：1.一种基于上下文状态和动作权重的强化学习方法，其特征在于，该方法包括以下步骤：S1、在基于Mujoco框架的连续动作控制环境中，获取机器人与环境进行交互所产生的状态数据信息，状态数据信息包括状态图像、奖励值和结束标志三种数据信息；S2、基于状态数据信息对执行动作预测模型进行训练以及测试，执行动作预测模型由一个具有状态信息提取与融合作用的特征网络CMNet，以及一个基于SAC强化学习算法的强化学习框架网络SACNet组成；所述特征网络CMNet包括用于对输入的状态数据信息进行特征提取得到三元组的状态信息预处理模块，以及将三元组进行融合得到潜在特征的上下文状态信息融合模块；所述状态信息预处理模块由4个CONV-MP-ReLU层叠加得到，表达形式为：；其中，表示CONV-MP-ReLU层，即CONV层、MaxPooling层与ReLU层的串联组合；则表示4个CONV-MP-ReLU层叠加；所述上下文状态信息融合模块由3个将上下文状态信息进行融合的FC层组成，表达形式为：；其中，MLP表示3个FC层；是t时刻的潜在特征；构造一个基于SAC强化学习算法的强化学习框架网络SACNet，具体包括以下步骤：S21、基于Actor网络和Critic网络组建强化学习AC框架；S22、在经验池Buffer中随机抽取n个状态图像State数据，以及对应的动作记为A，并计算两两动作之间的余弦相似度得到动作权重矩阵，即：；其中，表示余弦相似度计算函数；S23、将其中的每一个状态图像State数据做图像随机裁剪操作得到两份状态图像State数据分别记为和；S24、将输入在线状态信息预处理模块和上下文状态信息融合模块得到特征记为，将输入目标状态信息预处理模块得到特征记为；S25、根据动作权重矩阵计算状态信息预处理模型的损失函数，即：；其中，是特征中的第项；和分别是特征中的第项和第项；是一组可学习的权重参数；是动作权重矩阵中与对应的动作权重向量；为特征的序列长度；S26、确定强化学习算法的损失函数，即：；其中，和为强化学习AC框架下的Actor网络和Critic网络对应的损失函数；是对状态信息预处理模型进行约束的损失函数；S27、在强化学习AC框架的基础上结合损失函数构成框架网络SACNet；S3、将由环境反馈的实时状态信息输入执行动作预测模型中输出对应预测的执行动作，用以实时调整智能体执行的动作以保证在环境中获取更高的分数。

全文数据：

权利要求：

百度查询：安徽大学一种基于上下文状态和动作权重的强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于上下文状态和动作权重的强化学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务