Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西安电子科技大学李阳阳获国家专利权

西安电子科技大学李阳阳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西安电子科技大学申请的专利基于轻量级连续型SAC算法的无人机自主路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116430904B

龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310543396.3,技术领域涉及:G05D1/495;该发明授权基于轻量级连续型SAC算法的无人机自主路径规划方法是由李阳阳;李浩哲;曹梦晨;沈家皓;张雪帆;刘睿娇;焦李成;尚荣华设计研发完成,并于2023-05-15向国家知识产权局提交的专利申请。

基于轻量级连续型SAC算法的无人机自主路径规划方法在说明书摘要公布了:本发明公开了一种基于轻量级连续型SAC算法的无人机自主路径规划方法,其步骤为:构建无人机飞行控制数学模型;设计状态空间、动作空间以及奖励函数;搭建深度强化学习神经网络模型;生成经验数据集;利用SAC算法训练深度神经网络;以训练好的网络作为教师网络进行模型蒸馏。本发明基于深度强化学习,以SAC算法作为模型基本框架,自主设计奖励函数提高训练效率,利用模型蒸馏缩小网络规模,实现了高探索度、轻量化的无人机路径规划方法,解决了无人机有时会出现原地打转平滑度差、噪声较多情况下产生误判、训练效率和稳定性较差、以及模型响应速度慢的问题。

本发明授权基于轻量级连续型SAC算法的无人机自主路径规划方法在权利要求书中公布了:1.基于轻量级连续型SAC算法的无人机自主路径规划方法,其特征在于,利用SAC算法与优先经验回放的深度强化学习神经网络模型,基于马尔可夫决策过程自主设计状态空间、连续型动作空间以及基于势能的奖励函数,对训练好的模型进行模型蒸馏;该规划方法的步骤包括如下: 步骤1,构建无人机运动方式的三自由度飞行模型; 步骤2,基于无人机飞行控制数学模型和马尔可夫决策过程自主设计状态空间集合、连续型动作空间集合以及奖励函数; 步骤3,构建基于SAC算法的深度强化学习神经网络: 步骤3.1,搭建一个策略子网络,其结构由六个全连接层依次串联组成,将六个全连接层的节点分别设置为14,512,512,512,512,3; 步骤3.2,搭建两个结构相同的动作价值评价子网络,每个子网络均由六个全连接层依次串联组成,将六个全连接层的节点分别设置为17,512,512,512,512,1; 步骤3.3,搭建结构相同的状态价值评价子网络和状态价值评价目标子网络,每个子网络均由六个全连接层依次串联组成,将六个全连接层的节点分别设置为14,512,512,512,512,1; 步骤3.4,将两个动作价值评价子网络并联后再分别与策略子网络、状态价值子网络相连接组成深度强化学习神经网络; 步骤4,生成经验数据集: 将无人机每次行动的状态空间集合、动作空间集合、获得奖励信息、执行动作后的状态空间集合组成该行动对应的四元组经验数据,存入经验池中,将经验池中至少存入的10000次行动的四元组经验数据组成经验数据集; 步骤5,利用SAC算法训练深度神经网络: 步骤5.1,随机初始化一个状态空间集合输入到策略子网络中,策略子网络输出动作空间集合,使无人机按照策略子网络给出的动作空间集合行动,并将由行动前无人机的状态集合、策略子网络给出的动作空间集合、奖励函数生成的奖励值、行动后无人机的状态集合组成的四元组存入经验池中,对当前存入经验池的数据赋予最高权重,并对其余数据按存入顺序衰减权重; 步骤5.2,从更新后的经验池中按优先经验回放抽取128条经验数据子集合输入到深度神经网络中,输出两个动作价值、状态价值1、状态价值2、奖励值,将当前输出的两个动作价值、状态价值1代入到损失函数L1当中;将当前输出的两个动作价值中的较小值和状态价值2代入到损失函数L2当中;将当前输出的两个动作价值中的较小值代入到损失函数L3当中,利用梯度反向传播方法分别更新动作价值评价子网络、状态价值评价子网络、策略网络的权重参数,使用指数衰减平均方法更新状态价值评价目标子网络的权重参数,得到更新后的深度神经网络权重参数; 步骤5.3,判断当前输出的奖励值是否收敛,若是,得到训练好的深度神经网络后执行步骤6,否则,执行步骤5.1; 步骤6,对策略子网络进行模型蒸馏: 步骤6.1,从经验池随机抽取10000条经验数据中的动作空间集合作为策略学生网络训练集; 步骤6.2,将策略学生网络训练集中按照每批次32条数据,分别输入到策略网络和策略学生网络,将两个网络的输出同时代入交叉熵损失函数中计算损失值,利用梯度反向传播法更新策略学生网络的权重参数,直到损失值收敛为止,得到蒸馏后的策略子网络; 步骤7,规划无人机飞行路径: 步骤7.1,将待规划路径的无人机当前时刻状态空间集合输入到蒸馏后的策略子网络中,输出当前时刻动作空间集合,无人机按动作空间集合行动,生成下一时刻状态空间集合和当前时刻无人机的运动路径,将当前时刻的运动路径按位置信息拼接到上一时刻生成的运动路径中; 步骤7.2,判断无人机是否抵达目标地点,若是,则执行步骤8,否则,执行步骤7.3; 步骤7.3,判断无人机行动次数是否达到预设上限,若是,提示无人机路径规划失败,否则,重复步骤7.1; 步骤8,将无人机是否抵达目标地点拼接的路径作为规划好的无人机行动路径。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市雁塔区太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。