安徽大学张倩倩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽大学申请的专利一种未知动态环境中人机混合自主导航系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120467325B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510739369.2,技术领域涉及:G01C21/16;该发明授权一种未知动态环境中人机混合自主导航系统是由张倩倩;李永恒;程志傲设计研发完成,并于2025-06-04向国家知识产权局提交的专利申请。
本一种未知动态环境中人机混合自主导航系统在说明书摘要公布了:本发明的一种未知动态环境中人机混合自主导航系统,包括环境感知模块利用激光雷达、摄像头和惯性测量单元这些传感器获取环境信息,并进行数据预处理;局部目标点选取模块根据环境感知模块提供的实时信息,在环境中选取符合要求的局部目标点集;决策规划模块,基于深度强化学习算法与人工经验混合训练生成最优路径和导航策略;学习优化模块通过在线学习与迁移学习技术提升算法的泛化能力,并结合人机交互模块实现人类经验的有效引入和策略调整。人机交互模块可与局部目标点选取模块协同工作,以根据外部输入动态调整目标点选取,优化路径规划。本发明能够在未见环境中保持较高的决策稳定性,并减少训练成本,更加适用于真实世界的自主导航应用。
本发明授权一种未知动态环境中人机混合自主导航系统在权利要求书中公布了:1.一种未知动态环境中人机混合自主导航系统,包括环境感知模块、决策规划模块、局部目标点选取模块、学习优化模块和人机交互模块,其特征在于, 环境感知模块利用激光雷达、摄像头和惯性测量单元这些传感器获取环境信息,并进行数据预处理; 所述局部目标点选取模块根据环境感知模块提供的实时信息,在环境中选取符合要求的局部目标点集; 所述决策规划模块,基于深度强化学习算法与人工经验混合训练生成最优路径和导航策略; 学习优化模块通过在线学习与迁移学习技术提升算法的泛化能力,并结合人机交互模块实现人类经验的有效引入和策略调整; 所述人机交互模块可与局部目标点选取模块协同工作,以根据外部输入动态调整目标点选取,优化路径规划; 所述决策规划模块采用TD3算法,通过强化学习智能体的交互训练; 在训练过程中,智能体通过环境感知模块接收状态信息,并采取相应的导航动作; TD3算法利用两个独立的Q网络进行值函数估计,以减少策略更新过程中的过估计问题,同时采用目标网络延迟更新机制,提升学习稳定性; 奖励函数的设计综合考虑了导航效率、避障安全性以及能源消耗因素,以优化导航路径;奖励函数的具体设计如下: 目标奖励:当机器人成功到达目标点,且与目标点的欧式距离小于设定阈值时,系统给予固定的正向奖励以鼓励快速完成导航任务,提高任务完成率; 碰撞惩罚:若机器人在导航过程中检测到与障碍物发生碰撞,则立即施加负向奖励,该惩罚信号促使导航系统学习避免危险行为,降低碰撞风险,提升系统的安全性; 运动平稳性奖励:机器人运动的平稳性对于导航效率和系统稳定性至关重要;在奖励函数中,线速度采用正向二次奖励,以鼓励机器人保持合适的速度前进,避免低速滞留导致任务延误;角速度w采用负向二次惩罚,以减少不必要的急转弯,优化轨迹平稳性,提高路径的可行性和导航效率; 避障安全性奖励:通过激光传感器检测机器人与障碍物的最小距离,设置距离惩罚函数;当机器人距离障碍物小于设定的安全阈值时,施加惩罚,以增强避障能力并防止发生碰撞;避障安全性奖励函数定义如下: 人机交互反馈惩罚:在自主学习过程中,为了使机器人学习符合人类经验的导航策略,设定人为干预惩罚项,当导航决策偏离人类专家经验,导致用户进行手动调整时,系统施加负向奖励,以引导模型逐步减少对人为干预的依赖,提高自主学习能力; 完整的奖励函数表示为: ; 采用人机混合训练方法,在强化学习训练的不同阶段,引入人类经验,以提高模型的收敛速度,并增强自主导航系统的智能化水平,具体如下: 初始阶段即0-30%训练周期:在训练初期,由人类专家提供示范数据,人工决策占比较高,机器人模仿人工操作的路径规划方式,借助专家知识库建立基础导航策略,加快模型收敛速度; 中期阶段即30-70%训练周期:在此阶段,逐步减少人工干预比例,导航系统开始自主探索优化策略; 后期阶段即70-100%训练周期:该阶段完全由强化学习模型自主决策,机器人通过在线学习不断优化策略,并在不同环境中进行适应性调整,以提升泛化能力和决策稳定性; 所述TD3算法采用两个独立的Q网络和进行状态-动作值函数的估计,以降低传统单Q网络的过估计问题; 所述Q网络的目标值计算如下: 其中,为奖励值,为折扣因子,为下一时刻的状态,为目标Q网络; 所述Q网络的损失函数定义如下: 所述目标Q网络采用延迟更新策略,以减少训练过程中的不稳定性; 策略网络通过最大化Q网络的输出值来优化导航策略,其优化目标与梯度更新方式如下,其中,仅采用进行策略优化,以降低计算复杂度,提高更新效率: 为防止策略输出过于激进导致不稳定的导航行为,所述TD3算法在动作执行过程中加入高斯噪声,并对其进行裁剪,以限制策略更新幅度,其中,控制噪声强度,限制噪声范围,从而提升导航策略的平滑性,避免过大的控制变化影响导航安全性; 在决策实施过程中,考虑到机器人的物理模型,加速度指令受到物理约束,确保机器人能够在可行的加速度范围内稳定运行; 此外,还包括误差处理方法被用于修正执行过程中的偏差,提高导航系统的精度和安全性; 所述局部目标点选取模块通过设计一个综合的评价函数,对每个候选目标点进行评价,考虑路径畅通性、目标接近度和环境安全性因素,选取最优的局部目标点,引导机器人向全局目标点前进,避免因长距离任务导致的局部最优问题; 所述局部目标点集选取规则设计如下: 当激光传感器检测到角度为、距离为的近距离扇区内没有障碍物时,在该扇区的平分线上添加一个点; 在角度为、距离为的长距离扇区内,如果激光传感器没有检测到障碍物,也在该扇区的平分线上放置一个点,以确保导航路径的连续性和平滑性; 为了进一步提高导航精度和灵活性,分析连续激光传感器读数之间的差异,如果检测到的差异超过预定义的阈值,可能表明存在机器人可以通过的间隙,在这种情况下,在间隙的中心添加一个点,引导机器人利用这个潜在通道进行安全避障和路径优化; 为了选择最优的局部目标点,设计了一个基于信息增益、距离与障碍物感知的综合评价函数,选择评分最低的目标点作为当前时间步的最优局部目标点: 上述的四个评价指标结合四个对应的权重构成评价指标; 第一欧几里得距离评价项,该项衡量候选目标点与机器人当前位置的距离,使用超越函数来增强距离的影响,其中,为当前位置与目标点的欧几里得距离,,为距离限制; 第二全局目标距离评价项,该项评估目标点与全局目标的距离,鼓励机器人朝向全局目标前进; 第三环境信息增益评价项,该项通过环境信息增益衡量候选目标点的适应性,其中为周围环境的信息增益; 第四障碍物避让评价项,该项根据障碍物与目标点的距离,惩罚接近障碍物的目标点;通过上述评价函数计算每个候选目标点的评分,最终选择得分最低的目标点作为最优局部目标点: 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市经开区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励