山东科技大学王晓敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东科技大学申请的专利未知环境下基于深度强化学习的连续空间路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120085555B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510562143.X,技术领域涉及:G05B13/04;该发明授权未知环境下基于深度强化学习的连续空间路径规划方法是由王晓敏;韩金树;杨睿;孙振东设计研发完成,并于2025-04-30向国家知识产权局提交的专利申请。
本未知环境下基于深度强化学习的连续空间路径规划方法在说明书摘要公布了:本发明涉及一种未知环境下基于深度强化学习的连续空间路径规划方法,属于路径规划技术领域,包括获取移动机器人的目标方向、目标距离、移动速度及障碍物距离,根据障碍物距离生成一障碍物特征向量,定义一状态向量;构建一包括策略网络、目标策略网络的路径规划模型;初始化一隐藏特征向量并将其与移动机器人的状态向量输入策略网络得到更新后的隐藏特征向量和动作向量;移动机器人根据动作向量执行相应动作,通过定义状态向量并结合策略网络,实现了机器人在未知环境中的动态路径规划,通过隐藏特征向量传递时序信息,使机器人能够结合状态向量生成动作向量,从而提升决策的连续性和适应性,能够更高效地调整路径,提高避障成功率和导航效率。
本发明授权未知环境下基于深度强化学习的连续空间路径规划方法在权利要求书中公布了:1.一种未知环境下基于深度强化学习的连续空间路径规划方法,其特征在于,包括: 状态向量定义步骤:获取移动机器人的目标方向、目标距离、移动速度及障碍物距离,根据障碍物距离生成一障碍物特征向量,基于所述目标方向、目标距离、移动速度及障碍物特征向量定义一状态向量; 模型构建步骤:构建一路径规划模型,所述路径规划模型包括策略网络; 动作向量生成步骤:初始化一隐藏特征向量并将其与移动机器人的状态向量输入所述策略网络得到隐藏特征向量和动作向量; 动作执行步骤:所述移动机器人根据所述动作向量执行相应动作; 其中,所述策略网络包括: 输入层,用于输入状态向量和隐藏特征向量; 状态演化层,包括多个CFC单元,所述CFC单元用于通过解析近似方法对输入的所述状态向量和所述隐藏特征向量进行动态响应建模,并输出动作向量和更新后的隐藏特征向量; 输出层,用于通过激活函数限制所述动作向量的范围; 其中,所述路径规划模型还包括目标策略网络、评估网络和目标评估网络; 所述目标策略网络根据下一时刻移动机器人的状态向量及所述隐藏特征向量得到下一时刻所述移动机器人的目标动作向量; 所述评估网络根据所述状态向量和所述动作向量生成评估值和评估值; 所述目标评估网络根据所述状态向量和所述动作向量生成评估值和评估值; 其中,所述模型构建步骤还包括: 根据所述动作向量和所述状态向量计算避障奖励值,将所述避障奖励值、所述状态向量、所述隐藏特征向量、所述动作向量、所述状态向量、所述隐藏特征向量组成六元组存储至经验回放区中,根据所述经验回放区对所述路径规划模型进行训练; 其中,所述方法还包括: 评估网络更新步骤:根据所述评估值、评估值和所述避障奖励值计算目标值,基于所述评估值、评估值和所述目标值计算损失函数,根据所述损失函数更新所述评估网络的权重参数; 其中,所述避障奖励值的计算模型为: ; ; ; ; ; ; ; 其中,为接近目标点的奖励值;为接近障碍物的奖励值;为第个方向的避障奖励值;为个方向的避障奖励值的总和;为当前时刻的目标距离和目标方向;为上一时刻的目标距离和目标方向;为目标距离;为目标距离的阈值;为障碍物距离;为障碍物距离的阈值;为放大系数;为权重系数; 为第个方向避障奖励的权重系数;为归一化后的第个方向的激光雷达距离;为未经过归一化处理的第个方向的激光雷达距离;为预测安全距离;为移动机器人的最大移动速度;为移动机器人的运动时间间隔;为归一化后的预测安全距离。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东科技大学,其通讯地址为:266590 山东省青岛市黄岛区前湾港路579号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。