首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的粗粒度智能无人机突防方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第五十四研究所

摘要:本发明公开了基于强化学习的粗粒度智能无人机突防方法,属于指挥决策与人工智能技术领域。本发明包括以下步骤:构建突防场景、构建粗粒度环境、构建改进的强化学习方法、生成与优化突防策略和突防决策。本发明面向无人机突防策略生成计算资源需求量大、强对抗的特点,采用粗颗粒度网格化设置路径信标,降低了无人机动作空间维度和博弈过程中需要决策的次数,从而使得采用强化学习方法即可实现策略生成与决策,方法简单、计算复杂度低、自动化程度高,给出了获取最佳决策模型的具体方法,对现有技术做出了重要改进。

主权项:1.基于强化学习的粗粒度智能无人机突防方法,其特征在于,包括以下步骤:步骤1:构建突防场景,设置突防场景参数、场景复位函数、场景交互函数;其中,突防场景参数包括:传感器数量sensors_number;传感器名称列表sensors_name_list,列表中元素代表突防场景中所有传感器的名称,数量为传感器数量sensors_number;传感器X轴位置列表sensors_x_list,列表中元素代表在突防场景二维地图中所有传感器的X轴位置,数量为传感器数量sensors_number;传感器y轴位置列表sensors_y_list,列表中元素代表在突防场景二维地图中所有传感器的Y轴位置,数量为传感器数量sensors_number;传感器探测范围列表sensors_detection_distance_list,列表中元素代表各传感器的探测范围值,数量为传感器数量sensors_number;无人机名称列表uavs_name,列表中元素代表在突防场景二维地图中所有无人机的名称;无人机X轴位置列表uavs_x,列表中元素代表在突防场景二维地图中所有无人机的X轴位置;无人机Y轴位置列表uavs_y,列表中元素代表在突防场景二维地图中所有无人机的Y轴位置;无人机干扰范围uavs_jamming_distance,代表无人机的干扰范围值;无人机的单次最大移动距离uav_velocity;突防位置final_x,final_y;任务边界,包括X轴最小位置Xmin、X轴最大位置Xmax、Y轴最小位置Ymin和Y轴最大位置Ymax;突防结束标志位done,初始为否;奖赏值reward,初始为0;传感器检测最小概率p_sensor_min和最大概率p_sensor_max;无人遮挡最小概率p_jammer_min和最大概率p_jammer_max;所述场景复位函数用于执行如下操作:设置传感器列表sensors_list,将传感器的X轴位置、Y轴位置和探测距离组成元素,逐个放入传感器列表中;设置无人机列表uavs_list,将无人机的X轴位置、Y轴位置和干扰距离组成元素,逐个放入无人机列表中;将突防结束标志位done设置为否;将奖赏值reward设置为0;所述场景交互函数用于执行如下操作:计算无人机位置与目标位置之间的距离temp_distance: 其中,target_position_x、target_position_y分别为目标位置坐标的X轴分量和Y轴分量;当temp_distance小于等于uav_velocity时,将uavs_x设置为target_position_x,将uavs_y设置为target_position_y;当temp_distance大于uav_velocity时,计算本次无人机移动距离在X轴和Y轴上的变化值,分别为temp_x和temp_y,其中: 当uavs_x大于等于target_position_x时,uavs_x=uavs_x-temp_x;当uavs_x小于target_position_x时,uavs_x=uavs_x+temp_x;当uavs_y大于等于target_position_y时,uavs_y=uavs_y-temp_y;当uavs_y小于target_position_y时,uavs_y=uavs_y+temp_y;计算无人机和第n部传感器的距离: 其中,第n部传感器的X轴位置为,Y轴位置为;当≥0且≤第n部传感器的探测范围detection_distance时,第n部传感器的发现概率为: 其中,detection_distance取自sensors_detection_distance_list;当>第n部传感器的探测范围detection_distance时,第n部传感器的发现概率为0;当≥0且≤无人机的干扰范围值uavs_jamming_distance时,第n部传感器的发现概率衰减量为: 当>无人机的干扰范围值uavs_jamming_distance时,第n部传感器的发现概率衰减量为0;计算第n部传感器对于无人机的综合发现概率: -计算N部传感器对无人机联合发现概率: 计算奖赏值reward:reward=当reward等于0或者reward小于等于-1时,将reward设置为-1;计算突防位置与无人机之间的距离temp_dis: 当temp_dis为0时,将突防结束标志位done设置为是;当temp_dis不为0时,将突防结束标志位done设置为否;步骤2:构建粗粒度环境,设置粗粒度环境参数、信标编号转换函数、可选信标编号列表生成函数、位置转换函数;其中,粗粒度环境参数的设置方式为:构建粗粒度信标点阵,设置在任务边界内沿X轴的信标点数为M个,沿Y轴的信标点数为L个;在任务边界内沿X轴的信标间距dX为;在任务边界内沿Y轴的信标间距dY为;生成从1到M×L的编号,并存储到编号列表Number_list中;计算得到每一个编号i对应的X轴位置Ix和Y轴位置Iy: 其中为取整操作;构建num_pos_dict字典,以编号i为键,以[,]为值存入num_pos_dict字典;所述信标编号转换函数用于执行如下操作:逐个计算信标与当前无人机位置的距离: 如果在逐个计算的过程中出现等于0,则跳出函数并返回编号i;如果遍历所有信标均无发现等于0,则函数返回-1;所述可选信标编号列表生成函数用于生成在当前信标编号now_numbe下,可前往的信标编号列表action_space,其中元素为在当前信标编号下可移动前往的信标编号;具体方式为:判断当前信标编号是否存在可向左移动的信标编号,具体方式为:当now_number除以L的余数为0时,将now_number+1存入action_space中;若now_number除以L的余数不为0,但now_number-1存在于Number_list中,则将now_number-1存入action_space中;否则将now_number+1存入action_space中;判断当前信标编号是否存在可向右移动的信标编号,具体方式为:当now_number除以L的余数为L-1时,将now_number-1存入action_space中;若now_number除以L的余数不为L-1,但now_number+1存在于Number_list中,则将now_number+1存入action_space中;否则将now_number-1存入action_space中;判断当前信标编号是否存在可向上移动的信标编号,具体方式为:当now_number+M存在于Number_list中时,将now_number+M存入action_space中;否则将now_number-M存入action_space中;判断当前信标编号是否存在可向下移动的信标编号,具体方式为:当now_number-M存在于Number_list中时,将now_number-M存入action_space中;否则将now_number+M存入action_space中;所述位置转换函数用于执行如下操作:通过num_pos_dict字典,以信标编号num为键,获取该信标的位置值[,];步骤3:构建改进的强化学习方法,设置改进的强化学习方法所需的超参数、用于训练的动作选择函数、用于评估的动作选择函数、价值表格值更新函数、利用率值增加函数、保存最优价值表格函数,以及加载最优价值表格函数;其中,超参数包括:无人机可选信标序号列表actions_list,列表中包括四个元素,分别对应当前信标编号在二维任务场景中可转移的信标编号的序号;学习速率learning_rate;奖赏衰减率reward_decay;初始利用值e_greedy;当前利用值epsilon;二维矩阵价值表格q_table,表格的行对应信标编号Number_list,列对应actions_list;所述用于训练的动作选择函数用于执行如下操作:生成[0,1]之间的随机数;当随机数小于当前利用值epsilon时,获取当前无人机所在信标编号observation所在行最大值所对应的信标序号selected_num,按照序号从action_space中找到对应的信标编号action;否则,随机从actions_list选择一个序号作为信标序号selected_num,按照序号从action_space中找到对应的信标编号action;所述用于评估的动作选择函数用于执行如下操作:获取当前无人机所在信标编号observation所在行最大值所对应的信标序号selected_num,按照序号从action_space中找到对应的信标编号action;所述价值表格值更新函数用于执行如下操作:以无人机前置信标编号s为行号,以无人机前置选择的信标序号a为列号,从二维矩阵价值表格q_table中获得价值预测值q_predict;如果突防结束标志位done为否,则价值目标值q_target为: 其中,表示从二维矩阵价值表格q_table中获取无人机当前信标s_对应的行中最大值;否则,价值目标值q_target为无人机信标移动过程中获得的奖励r;更新二维矩阵价值表格q_table对应的行号s和列号a的价值为: 所述利用率值增加函数用于更新当前利用值epsilon: 其中,e为当前训练幕数,Max_episode为总训练幕数;所述保存最优价值表格函数用于将二维矩阵价值表格q_table中的数值进行存储;所述加载最优价值表格函数用于将存储的数值赋予二维矩阵价值表格q_table;步骤4:生成并优化突防策略;具体方式为:步骤4-1:设置策略生成与优化参数;设置最大运行幕次Max_episode,表示在本次策略生成过程中最大运行幕的数量;设置每幕最大步长Max_step,表示在突防策略训练过程中最大运行的步长数量;设置训练数据收集空间,在训练表格train_lable中存储训练结果的幕次,在训练结果空间train_result_space中存储训练结果的累积奖赏;设置评估数据收集空间,在测试表格test_lable中存储评估结果的幕次,在测试结果空间test_result_space中存储评估结果的累积奖赏;设置利用值空间epsilon_space用于存储每幕次的利用值epsilon;设置评估周期Eva_episode;步骤4-2:设置突防智能训练函数,所述突防智能训练函数用于调用场景复位函数,并返回传感器列表sensors_list、无人机列表uavs_list、结束标志位done和奖赏值reward;设置上一信标编号为num_before;设置上一时刻选择的信标序号为num_action_before;设置低分辨率奖赏为grid_reward;设置总奖赏为sum_reward;设置当前步长为step=0;调用利用率值增加函数,输入当前幕e和最大运行幕次Max_episode;从无人机列表uavs_list中获取当前无人机位置,其中X轴位置为pos_x和Y轴位置为pos_y;调用信标编号转换函数,输入无人机位置,输出当前无人机所在信标编号num;当信标编号不等于-1时,执行如下操作:调用可选信标编号列表生成函数,输入信标编号num,获得当前信标编号下可选信标编号列表action_space;调用用于训练的动作选择函数,输入信标编号num和前信标编号下可选信标编号列表action_space,获得无人机前往信标编号action和该信标编号对于信标编号列表action_space的序号;调用位置转换函数,输入无人机前往信标编号action得到对应信标编号的位置信息pos;计算突防位置与无人机之间的距离final_dis: 当final_dis为0时,设置final_reward数值,并将final_done设置为真;当final_dis不为0时,设置final_reward数值为0,并将final_done设置为否;调用价值表格值更新函数,分别输入num_before、num_action_before、grid_reward+final_reward、num和final_done;更新num_before,将num赋予num_before;更新num_action_before,将num_action赋予num_action_before;设置grid_reward数值为0;当final_done为真时,函数跳出,并返回累积奖赏为sum_reward;完成当信标编号不等于-1时的操作;调用场景交互函数,输入对应信标编号的位置信息pos,获得传感器列表sensors_list、无人机列表uavs_list、结束标志位done和奖赏值reward;计算低分辨率奖赏为grid_reward=grid_reward+reward;计算累积奖赏为sum_reward=sum_reward+reward;将当前幕e加1;如果当前幕e未达到最大运行幕次Max_episode,则再次调用利用率值增加函数,重新计算;如果当前幕e达到最大运行幕次Max_step,则函数跳出,并返回累积奖赏为sum_reward;步骤4-3:设置突防智能评估函数,所述突防智能评估函数调用场景复位函数,返回传感器列表sensors_list、无人机列表uavs_list、结束标志位done和奖赏值reward;设置上一信标编号为num_before;设置上一时刻选择的信标序号为num_action_before;设置低分辨率奖赏为grid_reward;设置总奖赏为sum_reward;设置当前步长为step;调用利用率值增加函数,输入当前幕e和最大运行幕次Max_episode;从无人机列表uavs_list中获取当前无人机位置,其中X轴位置为pos_x和Y轴位置为pos_y;调用信标编号转换函数,输入无人机位置,输出当前无人机所在信标编号num;当信标编号不等于-1时,执行如下操作:调用可选信标编号列表生成函数,输入信标编号num,获得当前信标编号下可选信标编号列表action_space;调用用于评估的动作选择函数,输入信标编号num和前信标编号下可选信标编号列表action_space,获得无人机前往信标编号action和该信标编号对于信标编号列表action_space的序号;调用位置转换函数,输入无人机前往信标编号action,得到对应信标编号的位置信息pos;计算突防位置与无人机之间的距离final_dis: 当final_dis为0时,设置final_reward数值,并将final_done设置为真;当final_dis不为0时,设置final_reward数值为0,并将final_done设置为否;更新num_before,将num赋予num_before;更新num_action_before,将num_action赋予num_action_before;设置grid_reward数值为0;当final_done为真时,函数跳出,并返回累积奖赏为sum_reward;完成当信标编号不等于-1时的操作;调用场景交互函数,输入对应信标编号的位置信息pos,获得传感器列表sensors_list、无人机列表uavs_list、结束标志位done和奖赏值reward;计算低分辨率奖赏为grid_reward=grid_reward+reward;计算累积奖赏为sum_reward=sum_reward+reward;将当前幕e加1;如果当前幕e未达到最大运行幕次Max_episode,则再次调用利用率值增加函数,重新计算;如果当前幕e达到最大运行幕次Max_step,则函数跳出,并返回累积奖赏为sum_reward;步骤4-4:突防智能训练并评估;调用突防智能训练函数,输入当前幕e和最大运行幕次Max_episode,返回累积奖赏sum_reward,在测试表格test_lable中存储评估结果的幕次e,在测试结果空间test_result_space中存储评估结果的累积奖赏sum_reward;将当前幕e累加1,如果e除以Eva_episode的余数为0,则调用突防智能评估函数,输入当前幕e和最大运行幕次Max_episode,返回累积奖赏sum_reward,在测试表格test_lable中存储评估结果的幕次e,在测试结果空间test_result_space中存储评估结果的累积奖sum_reward;当测试结果空间test_result_space中存储的评估结果首个最大值的位置小于等于test_result_space中存储的评估结果数量的一半时,结束步骤4-4,并调用保存最优价值表格函数;否则重复步骤4-4继续迭代;步骤5:进行突防决策,实现无人机在场景中智能突防;具体方式为:步骤5-1:调用所述场景复位函数,返回传感器列表sensors_list、无人机列表uavs_list、结束标志位done和奖赏值reward;步骤5-2:调用所述加载最优价值表格函数;步骤5-3:调用所述突防智能评估函数,实现无人机在场景中智能突防。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第五十四研究所 基于强化学习的粗粒度智能无人机突防方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。