用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统

导航：龙图腾网> 最新专利技术> 用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：东南大学

摘要：本发明涉及用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统，该环境基于ROS、Python和C++，使用了Gazebo模拟器作为物理引擎，构建了基于OpenAIGym强化学习的统一接口。该环境可以真实地模拟RoboMaster人工智能挑战赛中的机器人运动和比赛过程中的裁判系统数据，使用者可以根据情况自由地设计状态反馈和奖励。本发明使得各种基于强化学习的算法能够方便地基于此环境进行训练和效果评估，大大降低了研究RoboMaster人工智能挑战赛决策系统的难度。

主权项：1.一种用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统，其特征在于:该系统总共可分为三个部分，分别是物理引擎、模型控制器、比赛模拟器三个模块,该系统使用了Gazebo作为物理引擎，C++程序作为模型控制器，OpenAIGym接口与强化学习算法和控制器互动；比赛模拟器在于模拟比赛的进行，将比赛的进行分解为多个小的步骤step，互动函数的运行逻辑如下：步骤1:计算场上奖励和惩罚区的更新信息到机器人，步骤1.1:每台机器人，判断是否在奖励区内，获得奖励区编号；步骤1.2:如果奖励惩罚区没有被占用，获得奖励区类型，更新并应用机器人奖励；状态，否则删除机器人的奖励状态；步骤1.3:如果机器人进入的是惩罚区，则除步骤1.2之外，还需记录当前时间点；步骤1.4:遍历各个奖惩区域，判断是否有机器人进入到惩罚区，如果有，则判断惩罚时间是否结束，如果结束则恢复机器人状态；步骤2:根据机器人的实际位置，计算机器人的枪口朝向，机器人的正面会指向最近的对手；步骤2.1:根据获得的机器人位置信息，获得距每台机人最近的且存活的对手机器人的编号；步骤2.2:每台机器人最近对手机器人的编号，利用位置信息计算应偏转的角度；步骤3：模拟控制机器人的移动和转向，步骤3.1：应用对手机器人的动作，对手机器人的动作可以选择随机赋值，也可以选择使用已训练好的模型；步骤3.2：对己方机器人和对手机器人的动作进行解码；步骤3.3：将动作信息和偏转角度信息通过ROS发送给控制器模块进行控制；步骤4：运行物理引擎进行仿真；步骤5：更新奖励和惩罚区，仅当剩余时间60s或120s时进行；步骤5.1：根据中心对称的原则随机确定奖惩区位置；步骤5.2：计算当前的奖励状态编号，总共应存在48种编号；步骤5.3：刷新机器人的奖惩区状态；步骤6：应用射击和伤害模型；步骤6.1：排除已经死亡的机器人；步骤6.2：排除处于“禁止射击”状态的机器人；步骤6.3：设定基础命中率85％，如果机器人之间存在墙壁阻挡或其他机器人阻挡，则命中率降低为0％；步骤6.4：如果不存在阻挡，根据机器人与对手机器人之间的距离确定命中率；步骤6.5：根据打击对手的角度不同，结合步骤6.4中的命中率，得到造成的伤害；步骤6.6：根据伤害减少机器人血量，步骤6.7：记录单次队伍伤害，并将伤害加入总伤害；步骤7：应用碰撞检测，步骤7.1：检测每个机器人是否与墙壁碰撞；步骤7.2：检测每个机器人是否与其他机器人碰撞；步骤8：判断比赛是否结束，判断依据包括时间结束、某一方所有机器人血量减少到0，计算奖励；模型控制器包括复杂控制器和简单控制器，控制过程分别如下：复杂控制器的控制逻辑，步骤1：通过回调函数从Gazebo模拟器中不断地获得机器人状态，包括底盘朝向和云台偏转角，步骤2：通过回调函数从Gym环境中不断地获得机器人的底盘控制命令，步骤3：通过速度分解求取机器人底盘坐标系的目标速度，步骤4：根据目标方向确定机器人云台的朝向，用PID算法控制底盘跟踪云台，步骤5：使用麦克纳姆轮的速度公式结算各个车轮的速度，步骤6：发送速度给模拟器简单控制器的控制逻辑：步骤1：通过回调函数从Gazebo模拟器中不断地获得机器人状态，包括底盘朝向，步骤2：通过回调函数从Gym环境中不断地获得机器人的底盘控制命令，步骤3：通过速度分解求取机器人底盘坐标系的目标速度，步骤4：发送速度给模拟器。

全文数据：

权利要求：

百度查询：东南大学用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种水利巡河安全警报组件

下一篇：一种四合一冲锋衣

相关技术

一种水利巡河安全警报组件

一种四合一冲锋衣

一种微型CO₂捕集液化装置

一种动物体内压力信号转换装置

一种防位移的接线插拔式继电器

一种熔接头焊接模具

一种便于调节的铝制品加工用吸板固定机构

一种船舶发动机维修保养用清洁装置

一种压滤机滤板油缸液压系统

一种污水废水多级处理装置

电芯、电池及用电设备

定子铁芯、轴向磁通电机和车辆

机器人相关技术

割草机器人_深圳市优必选科技股份有限公司_202323643109.0

消杀机器人_卫溯源(北京)生物医药科技有限公司_202420273995.8

泳池清洁机器人_东莞市清水智能机器人有限公司_202323521924.X

打磨机器人_北京史河科技有限公司_201910599434.0

机器人电机转子_常州市武起常乐电机有限公司_202323451598.X

一种虚拟迎宾机器人及其机器人交互方法_深圳市云鲸视觉科技有限公司_202410677780.7

机器人控制方法、装置、计算机可读存储介质及机器人_深圳市优必选科技股份有限公司_202011319782.7

介入手术机器人操纵装置及介入手术机器人_北京万思医疗器械有限公司_202323576217.0

机器人调用方法、机器人调用装置、管理系统和存储介质_西安优艾智合机器人科技有限公司_202110626939.9

机器人控制方法及装置、医疗废物收运机器人、存储介质_河北博健科技有限公司_202411134076.3

强化相关技术

一种再生骨料强化装置_湖北慧迪长盛科技有限公司_202420317751.5

一种强化沸腾传热的微柱和金属霜复合结构_天津大学_202410690432.3

一种双金属带锯条激光强化装置及方法_湖南泰嘉新材料科技股份有限公司_202410958892.X

一种机械零件表面强化用形变控制装置_如东鑫春机械有限公司_202323616273.2

一种石墨烯稀土复合强化汽车铝车轮的制造方法_江苏凯特汽车部件有限公司_202210695920.4

一种强化型高温干化灰化装置_湖南悦恺智能科技有限公司_202420011005.3

基于数字孪生与强化学习的果园环境监测装置_嘉应学院_202410696896.5

一种强化TP触摸屏边缘的夹具结构_信利光电股份有限公司_202323376595.4

一种基于多Agent强化学习的边缘计算任务调度方法_南京博裕物联科技有限公司_202411127783.X

一种基于深度强化学习的转台伺服系统控制方法_长春工业大学_202410691545.5

挑战赛相关技术

莱赛尔纤维竹浆粕及其制备方法和应用_泰盛科技(集团)股份有限公司_202410804571.4

一种抗菌莱赛尔面料及其制备方法_武汉纺织大学_202210775402.3

用于医学图像中分割挑战性区域的自适应级联解码器_哈尔滨理工大学_202410702041.9

一种莱赛尔纤维生产装置_吴江京奕特种纤维有限公司_202410008706.6

一种莱赛尔纤维成分分析检测设备_江苏五誉兴誉之硕新材料科技有限公司_202420104559.8

一种阿片类药物-奥赛利定的制备方法_中山大学_202410541284.9

一种莱赛尔纤维衬衫面料_浙江万方纺织科技有限公司_202323376144.0

一种莱赛尔纤维纺丝机熔体分配梁_江苏金斗重工有限公司_202110441841.6

一种可去除残留化学物质的莱赛尔纤维加工消毒装置_山东鸿泰鼎新材料科技有限公司_202410814250.2

一种越野赛用充气轮胎_厦门正新橡胶工业有限公司_202110610878.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务