首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明涉及用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统,该环境基于ROS、Python和C++,使用了Gazebo模拟器作为物理引擎,构建了基于OpenAIGym强化学习的统一接口。该环境可以真实地模拟RoboMaster人工智能挑战赛中的机器人运动和比赛过程中的裁判系统数据,使用者可以根据情况自由地设计状态反馈和奖励。本发明使得各种基于强化学习的算法能够方便地基于此环境进行训练和效果评估,大大降低了研究RoboMaster人工智能挑战赛决策系统的难度。

主权项:1.一种用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统,其特征在于:该系统总共可分为三个部分,分别是物理引擎、模型控制器、比赛模拟器三个模块,该系统使用了Gazebo作为物理引擎,C++程序作为模型控制器,OpenAIGym接口与强化学习算法和控制器互动;比赛模拟器在于模拟比赛的进行,将比赛的进行分解为多个小的步骤step,互动函数的运行逻辑如下:步骤1:计算场上奖励和惩罚区的更新信息到机器人,步骤1.1:每台机器人,判断是否在奖励区内,获得奖励区编号;步骤1.2:如果奖励惩罚区没有被占用,获得奖励区类型,更新并应用机器人奖励;状态,否则删除机器人的奖励状态;步骤1.3:如果机器人进入的是惩罚区,则除步骤1.2之外,还需记录当前时间点;步骤1.4:遍历各个奖惩区域,判断是否有机器人进入到惩罚区,如果有,则判断惩罚时间是否结束,如果结束则恢复机器人状态;步骤2:根据机器人的实际位置,计算机器人的枪口朝向,机器人的正面会指向最近的对手;步骤2.1:根据获得的机器人位置信息,获得距每台机人最近的且存活的对手机器人的编号;步骤2.2:每台机器人最近对手机器人的编号,利用位置信息计算应偏转的角度;步骤3:模拟控制机器人的移动和转向,步骤3.1:应用对手机器人的动作,对手机器人的动作可以选择随机赋值,也可以选择使用已训练好的模型;步骤3.2:对己方机器人和对手机器人的动作进行解码;步骤3.3:将动作信息和偏转角度信息通过ROS发送给控制器模块进行控制;步骤4:运行物理引擎进行仿真;步骤5:更新奖励和惩罚区,仅当剩余时间60s或120s时进行;步骤5.1:根据中心对称的原则随机确定奖惩区位置;步骤5.2:计算当前的奖励状态编号,总共应存在48种编号;步骤5.3:刷新机器人的奖惩区状态;步骤6:应用射击和伤害模型;步骤6.1:排除已经死亡的机器人;步骤6.2:排除处于“禁止射击”状态的机器人;步骤6.3:设定基础命中率85%,如果机器人之间存在墙壁阻挡或其他机器人阻挡,则命中率降低为0%;步骤6.4:如果不存在阻挡,根据机器人与对手机器人之间的距离确定命中率;步骤6.5:根据打击对手的角度不同,结合步骤6.4中的命中率,得到造成的伤害;步骤6.6:根据伤害减少机器人血量,步骤6.7:记录单次队伍伤害,并将伤害加入总伤害;步骤7:应用碰撞检测,步骤7.1:检测每个机器人是否与墙壁碰撞;步骤7.2:检测每个机器人是否与其他机器人碰撞;步骤8:判断比赛是否结束,判断依据包括时间结束、某一方所有机器人血量减少到0,计算奖励;模型控制器包括复杂控制器和简单控制器,控制过程分别如下:复杂控制器的控制逻辑,步骤1:通过回调函数从Gazebo模拟器中不断地获得机器人状态,包括底盘朝向和云台偏转角,步骤2:通过回调函数从Gym环境中不断地获得机器人的底盘控制命令,步骤3:通过速度分解求取机器人底盘坐标系的目标速度,步骤4:根据目标方向确定机器人云台的朝向,用PID算法控制底盘跟踪云台,步骤5:使用麦克纳姆轮的速度公式结算各个车轮的速度,步骤6:发送速度给模拟器简单控制器的控制逻辑:步骤1:通过回调函数从Gazebo模拟器中不断地获得机器人状态,包括底盘朝向,步骤2:通过回调函数从Gym环境中不断地获得机器人的底盘控制命令,步骤3:通过速度分解求取机器人底盘坐标系的目标速度,步骤4:发送速度给模拟器。

全文数据:

权利要求:

百度查询: 东南大学 用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。