首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种矿区车辆应急引导方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中煤科工智能储装技术有限公司

摘要:本发明涉及一种矿区车辆应急引导方法,包括:多个无人机作为空中调度指挥中心,每个无人机配备用于识别车辆和障碍物的摄像装置和用于引导车辆运行的语音广播装置,以及用于自身位置的定位系统。无人机接收到应急指挥命令后,无人机根据模型的输出实时导航接近任务车俩,到达位置后通过机载摄像机进行对车辆识别,和后台数据库比对成功后播报指挥语音,指挥引导车辆到达目的地。本发明采用集中式的以智能体为中心的反事实基线来实现反事实的多智能体策略梯度中的信用分配,通过“试错”的方式与环境持续交互,用以训练无人机,使无人机的导航达到最优策略,有效的减少车辆在矿区中的运行时间,提高了工作效率,特别是在发生事故时起到关键性作用。

主权项:1.一种矿区车辆应急引导方法,所述方法所使用的系统包括:位于地面的调度服务器、多架无人机,所述的无人机上设有摄像装置、语音提示装置和定位装置,其特征在于,所述方法的步骤包括:步骤1,现场数据采集:采集三维矿区场景,构建仿真环境,并将仿真环境参数初始化;步骤2,构建无人机运动模型:定义无人机的动作空间,定义环境的状态空间,引入评价指标地理公平性以保证无人机能供公平的为所有待引导车辆提供指挥引领服务,寻求目标是多个无人机在有限的续航时间内规避地面障碍物的影响,合理分配任务,以安全高效的引导更多车辆到达指定位置;步骤3,模型训练:构建集中式训练分散式执行的学习框架,其中使用联合信息训练的Critic网络来更新Actor-Critic架构中的一组独立Actor网络,学习一个集中的价值函数来估计所有智能体的预期折扣奖励;模型训练包括如下子步骤:子步骤1:引入残差自注意力RSA在集中式评估网络中引入残差自注意力RSA模块以处理可变数量的无人机,实体编码器在通过注意力层之前将不同的观测空间视为实体映射到嵌入空间,无人机的观测结果首先使用全连接层嵌入,对每个无人机的观测嵌入进行归一化处理,然后使用全连接网络进一步嵌入到查询Q,键K,值V中,其中Q代表需要获取信息的请求、Key表示与Q相关性的衡量标准、V表示需要被提取信息的实际数据;将Q,K和V输入到一个缩放的点积多头注意力中;将原始观测嵌入处理与处理后的嵌入相加后进行归一化,并平均得到的嵌入值,以形成固定大小的嵌入值;子步骤2:设定环境初始状态为st0:无人机u从当前时刻t的局部环境中获取观测包括无人机k的剩余能量当前位置Cut={xt,yt,zt}和操作状态待引导车辆i的位置Ci={xi,yi,zi},x、y、z表示矿区空间的笛卡尔坐标系;矿区障碍物j的位置Cj={xj,yj,zj}以及引导目的地的位置Gd;多个无人机合理分配任务,并通过轨迹规划规避障碍物,以最高效率尽可能指挥更多待引导车辆到达指定目的地;子步骤3,:定义多架无人机的预期折扣奖励rt为: 其中:表示无人机到达第i个待引导车辆位置获得的奖励,表示无人机指挥车辆到达目的地获得的奖励,表示无人机u的初始能量值,Eut表示无人机的剩余能量值,I表示待引导车辆的集合;U表示无人机的集合;εu表示无人机u的惩罚因子;ft表示地理公平性: 其中:αti表示待引导车辆i在t时刻是否获得指引;子步骤4:观测空间编码:为了在每个时刻t处理可能发生数量变化的无人机,首先对所有存活的无人机k的观测空间进行编码,然后将编码通过RSA模块传递;因此,Critic网络的输出,即集中式状态函数可以表示为: 其中:gk·表示存活无人机k的观测空间所对应的编码函数;φ表示Critic网络的参数;表示Critic网络的状态价值函数;子步骤5:对Critic网络进行训练更新 其中: γ表示折扣因子;λ表示平衡因子,取值在0到1之间;Gt表示t时刻的累计折扣奖励;T表示任务时间;γt-1表示t时刻的折扣因子;rt+1表示表示t时刻获得的奖励;λt-1表示t时刻的平衡因子;γT表示T时刻的折扣因子;y表示累计期望奖励;子步骤6:计算存活无人机k的优势函数:假设每架无人机的观测值和观测-动作对是不同的实体,通过学习一个值函数来学习无人机的反事实基线,该值函数以所有无人机的观测-动作对为输入;通过使用RSA模块以及观测-动作对编码器,设置第k架无人机的基线为: 其中:θ表示Actor网络的参数;fk`表示观测-动作对的编码网络;k`表示其他存活无人机;Qθ表示Actor网络参数为θ时第k架无人机的基线表示,即动作价值函数;表示其他存活无人机k`在时刻t的观测值;ak`表示其他存活无人机k`在时刻t采取的行为;存活无人机k的优势函数计算为: 其中:Advk表示存活无人机k的优势函数;子步骤7:对Actor网络进行训练更新:Jθ=Advk2其中:Jθ表示Actor网络参数θ的更新函数;步骤4,指挥车辆运行:多架无人机接收到应急指挥命令后,获取待引导的任务车辆的位置,利用上述模型进行任务分配和轨迹规划,每架无人机根据策略网络的输出实时导航接近待引导车俩,到达位置后通过机载摄像机对待引导车辆进行识别,和后台数据库比对成功后播报指挥语音,指挥引导车辆到达目的地。

全文数据:

权利要求:

百度查询: 中煤科工智能储装技术有限公司 一种矿区车辆应急引导方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。