首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习模型的森林灭火地空协同指挥调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:应急管理部沈阳消防研究所

摘要:本发明涉及信息技术领域,具体为基于深度强化学习模型的森林灭火地空协同指挥调度方法,包括以下步骤:S1:获取火场数据;S2:建立强化学习环境;S3:定义状态空间;S4:定义动作空间;S5:设计奖励函数;S6:构建深度强化学习模型,使用深度神经网络作为深度强化学习模型的近似值函数,采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练,不断优化调度策略;S7:测试模型,将步骤S6得到的模型进行测试及评估。通过将森林灭火调度问题建模为强化学习环境,并利用深度神经网络作为近似值函数的模型,更加准确地分析火场情况和资源分配需求,实现灭火力量的合理调度和协同作战,从而提高了灭火效率、降低了损失。

主权项:1.基于深度强化学习模型的森林灭火地空协同指挥调度方法,其特征在于,包括以下步骤:S1:获取火场数据,所述数据包括地理空间数据、卫星图像和影像数据、环境参数、气象数据和周围数字高层数据,根据上述数据及历史数据预测火灾模式、趋势及可能的发展路径;S2:建立强化学习环境,所述强化学习环境包括火场、集结点和灭火力量以及其关系和约束条件;S3:定义状态空间,所述状态空间为描述环境状态的变量集合,所述集合包括火场情况、集结点状态、地空力量资源配置;S4:定义动作空间,所述动作空间为深度强化学习模型可以采取的行动集合,所述集合包括分配地空力量资源到不同火场的数量和时间安排;S5:设计奖励函数,所述奖励函数用于评估深度强化学习模型每个时间采取动作的好坏程度;S6:构建深度强化学习模型,使用深度神经网络作为深度强化学习模型的近似值函数,采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练,不断优化调度策略;S7:测试模型,将步骤S6得到的模型进行测试及评估;所述步骤S2的具体步骤为:S21:定义火场信息,所述信息包括位置、火势蔓延速度、火灾面积和火强度;S22:确定集结点位置、可容纳的灭火资源数量和类型以及通往火场的道路状况;S23:描述灭火力量的种类、数量、行进速度和任务执行能力;S24:建立并描述火场、集结点和灭火力量之间的关系和约束条件,所述关系和约束条件包括资源到达速度、资源限制、天气条件和地形地貌;所述步骤S3的具体步骤为:S31:定义火场情况变量,包括位置、蔓延速度、面积、扩展方向、火强度;S32:描述集结点状态变量,包括位置、可用资源数量和类型以及道路状况;S33:确定地空力量资源配置变量,包括飞机、消防车辆、消防员的数量、位置和任务执行情况;所述步骤S4的具体步骤为:S41:确定灭火资源分配数量,包括飞机、消防车辆和消防员的数量,确定数量分配给每个火场的比例;S42:确定地空力量资源到达不同火场的时间安排,包括飞机、消防车辆和消防员前往不同火场执行任务的时间点;所述步骤S5中奖励函数的公式如下: ;其中:s为当前状态,α为深度强化学习模型采取的动作,ω1,ω2,ω3分别为各项因素的权重;所述任务开始时刻奖励用于奖励深度强化学习模型在任务开始时立即采取行动,设定与任务开始时刻相关的奖励值,快速派遣灭火资源奖励为正,延迟派遣奖励为负;所述调度灭火力量资源奖励用于奖励深度强化学习模型有效地分配和利用灭火资源,根据资源投入的及时性、合理性和效果来设定奖励值,合理分配和快速响应火场需求奖励为正,反之为负;所述综合调度经济成本惩罚用于综合考虑灭火资源利用效率与成本之间的平衡,以经济成本作为惩罚因素,以资源使用效率和成本调节奖励值,高效完成任务且成本效益较高奖励为正,反之为负;所述步骤S6的具体步骤为:S61:构建深度神经网络模型,采用多层感知器作为神经网络结构,并且选择层数、每层神经元数量和激活函数;所述神经网络结构为Q-value,以公式表示为: ;其中,表示神经网络结构的输出值,s表示当前状态,α表示采取的动作,θ表示神经网络结构的参数;S62:输入状态和动作空间,确定状态和动作空间的表示方式,将其输入到神经网络结构中,所述状态和动作空间以公式表示为: ; ;其中,si表示状态空间的第i个状态变量,αi表示动作空间中的第i个动作变量;S63:将步骤S62中得到的深度神经网络模型与环境交互,采用S1中准备的数据训练深度神经网络模型,在每个时间步根据当前状态选择动作,获取环境反馈,所述反馈包括奖励和下一个状态,根据环境反馈更新深度神经网络模型的参数;S64:深度强化学习模型得到在不同状态下选择最优动作的策略,最大化值函数的估计值使深度强化学习模型能够在每个时间步上做出最优的决策,从而优化调度策略;所述步骤S61的具体步骤为:S611:选择包含3个隐藏层的多层感知器作为模型;S612:为每个隐藏层选择不同数量的神经元,第一个隐藏层50个神经元,第二个隐藏层30个神经元,第三个隐藏层20个神经元;S613:选用ReLU作为激活函数;S614:设置输出层的神经元数量与火场数量相同,每个神经元表示对应火场的灭火资源分配比例;所述步骤S63的具体步骤为:S631;选择动作与环境交互并初始化深度神经网络模型的参数,参数用于估计值函数,并且随着与环境的交互不断更新;S632;深度神经网络模型获取当前状态并选择动作与环境交互,此时深度神经网络模型收集有关状态、奖励和下一个状态的信息;S633;基于步骤S632收集的信息,计算当前状态的值函数估计值,深度神经网络模型获取当前状态,并使用深度强化网络估计每个可能的Q-value;所述步骤S64的具体步骤为:S641;选择最优动作,在给定状态s下,深度强化学习模型选择具有最高Q-value的动作,即;S642;深度强化学习模型执行动作并观察环境的反馈,所述反馈包括奖励r和下一个状态s';S643:深度强化学习模型使用收集到的数据更新深度神经网络的参数以最小化损失函数,损失函数如下所示: ;其中,是当前状态s和动作α的Q-value,r是奖励,γ是折扣因子,所述折扣因子用于平衡即时奖励和未来奖励的重要性,s'是下一个状态,α'是下一个动作;S644:选择具有最高Q-value的动作使深度强化学习模型在每个时间步上做出最优的决策,从而优化调度策略;所述步骤S7的具体步骤为:S71:模型评估,将训练好的模型应用于测试集,获得模型的性能表现,所述性能表现包括灭火效果和调度效率;所述灭火效果指标包括灭火效率、灭火面积覆盖率和平均灭火时间,各个计算公式依次为: ; ; ;所述调度效率指标包括资源利用率和调度准确性,各个计算公式依次为: ; ;S72:验证性能,将模型与现有调度方案比较,评估模型的效果和优势,验证模型在实际场景中的应用价值。

全文数据:

权利要求:

百度查询: 应急管理部沈阳消防研究所 基于深度强化学习模型的森林灭火地空协同指挥调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。