Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜余姚市机器人研究中心;浙江大学郑华荣获国家专利权

恭喜余姚市机器人研究中心;浙江大学郑华荣获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜余姚市机器人研究中心;浙江大学申请的专利一种基于学习和采样的AUV信息性路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115686031B

龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211381884.0,技术领域涉及:G05D1/43;该发明授权一种基于学习和采样的AUV信息性路径规划方法是由郑华荣;于颖;徐文设计研发完成,并于2022-11-02向国家知识产权局提交的专利申请。

一种基于学习和采样的AUV信息性路径规划方法在说明书摘要公布了:本发明公开了一种基于学习和采样的AUV信息性路径规划方法,属于自主水下航行器的路径规划领域。本发明首先,使用Q‑learning进行AUV路径规划。然后,完成基于概率路线图的Q‑learning混合路径规划方法,降低求解问题的维度,通过混合路径规划方法实现洋流场中的IPP问题。最后,通过混合路径规划方法实现AUV的自动返航功能。本发明不仅能解决多目标优化问题,还具有运算效率高的优点,既最小化AUV的能量消耗,又考虑了AUV采样信息价值的最大化,同时实现避障,为AUV规划一条安全的最优路径,以及能够实现AUV自动返航的功能。

本发明授权一种基于学习和采样的AUV信息性路径规划方法在权利要求书中公布了:1.一种基于学习和采样的AUV信息性路径规划方法,其特征在于包括如下具体步骤:步骤1,使用Q-learning进行AUV路径规划:步骤1.1,AUV在状态st执行动作at+1,并接收实时奖励值rt+1=Rst,at+1,其中R为奖励矩阵;奖励矩阵R以状态S为行,动作A为列,Rsi,aj表示从当前状态si执行动作aj达到下一个状态sj后获得的奖励值;其中i,j=1,2,...,N;奖励矩阵R如下: 当两个状态不能转移时,对应的矩阵元素设为-1,当两个状态能够转移时,如果状态sj是目标状态,则将矩阵元素设置为10,否则设置为0;步骤1.2,通过学习和更新建立储存Q值的Q-table的过程,AUV能够学习到一个目标策略π:S→A,该目标策略将状态集S映射到动作集A,AUV将据此选择从当前状态到目标状态的一系列动作,最优的目标策略π*能够指导AUV选择使累积奖励期望Q值最大化的动作,此时AUV能够以一种最节能的方式安全到达目标状态;对于AUV路径规划问题,状态空间S是AUV所有位置的集合,动作空间A是AUV所有移动的集合;Q值是AUV在某一时刻t,在位置stst∈S处采取某一动作atat∈A移动到另一个位置的未来累积奖励的期望,定义为: 其中,π是目标策略,表示期望运算,rii=t+1,t+2,...,t+m表示AUV在未来时刻i所获得的奖励值;Gt=rt+1+γrt+2+γ2rt+3+…+γm-1rt+m表示在当前时刻t的未来m个时刻的累计折扣奖励值,未来时刻的奖励通过乘以折扣系数γ,γ2,…,γm-1反映在当前时刻;步骤1.3,使用时间差分法学习目标策略π;Q-table中的累积奖励期望Q值的学习和更新过程为: 其中,α为学习率,s′为在状态s下执行动作a后到达的下一状态,a′为s′执行的动作,值函数Qs,a的值表示在状态s下选择动作a的目标策略π的质量;通过Q-table中的累积奖励期望Q值的学习和更新这个过程,得到收敛的Q*,并为AUV学习到最优的目标策略π*;利用最优目标策略π*依次选择动作,实现AUV从起始状态到目标状态的路径规划,得到的状态序列对应AUV在空间中的位置;AUV根据π*选择的动作将最终实现最短路径的规划目标;由得到的状态序列组成的最优路径P*表示为: 其中,表示最优路径P*上的路径点,n为路径点的数量,表示从路径点到路径点的子路径段;步骤2,基于学习和采样的AUV信息性路径规划方法;步骤2.1,基于概率路线图的Q-learning混合路径规划方法;概率路线图方法包括两个阶段:图的构建阶段和图的搜索阶段;在图的构建阶段,构建一个路线图表示AUV周围的工作环境;首先,将环境初始化为一个空的无向图GS,A,其中顶点集S表示一组无碰撞的AUV位置节点,即Q-learning中的状态空间;边集A表示无碰撞的路径集合,即Q-learning中的动作空间;其次,使用均匀随机采样URS法和K最近邻KNN算法构造路线图;使用URS方法,在自由空间中采样无碰撞的节点si,i=1,2,...,N,并添加到顶点集S中;然后,使用KNN算法搜索si的k个邻居节点,将节点si分别与它的k个邻居节点相连,生成连线以构建路线图;同时,检查连线是否与任何障碍物碰撞,将无碰撞的连线添加到边集A中,否则删除连线;最后,得到构建的低维无碰撞概率路线图;在图的搜索阶段,将Q-learning算法与生成的概率路线图集成在一起,概率路线图作为Q-learning算法的输入,用于构建奖励矩阵R和Q-table,将概率路线图中的随机采样节点集合设置为Q-learning中的状态空间;步骤2.2,混合路径规划方法实现洋流场中的IPP问题;AUV沿前进路径Pf对环境信息进行采样,同时考虑洋流对其能量消耗的影响;对于构造好的概率路线图,得到一个初始的奖励矩阵此时只有三个元素值,即-1,0和10;然后利用已知的流场和环境信息数据对奖励矩阵进行重新设计,考虑在状态sh处的采样信息值以及由状态sl转移到状态sh时的能量消耗将初始奖励矩阵中的非负值重新设计为: 其中,ρ和ω为正常数权重系数,能量消耗由下式8进行计算: 其中,Pv是AUV的推进功率,与AUV的推进速度大小的立方成正比,ti是AUV沿着子路径段行驶所花费的时间,k为AUV的阻力系数,由AUV自身的设计决定,路径点pi对应于状态sl,路径点pi+1对应于状态sh,是AUV在子路径段上行驶时相对于海底的速度,通过和洋流速度的矢量合成得到: 在公式7中,有组合奖励rie=ρri-ωre,对ri和re进行无量纲处理,即进行归一化,采用Min-Max归一化方法,使ri和re的值在[0,1]范围内,同时rie也被归一化为在[0,1]范围内;通过合理设计ρ和ω值,实现在信息收集和能量消耗之间的合理权衡,重新设计的奖励矩阵如下: AUV在沿前进路径Pf采样的过程中,若能量储备不足,则需以最节能的方式沿返回路径Pr返回起始点;利用AUV航行时间的倒数重新设计奖励矩阵的值,航行时间越短,能耗越少,AUV获得的奖励值越高,建立初始的奖励矩阵如下: AUV返回到起始点,因此将原来的起始状态s1设置为目标状态,奖励矩阵中对应位置的值为10;然后,根据已知的洋流场数据,以及AUV的推进速度大小和方向,计算得到AUV的航行时间为: 其中,Δti,j是AUV从状态位置si,空间二维坐标为[xi,yi],到状态位置sj,空间二维坐标为[xj,yj],所花费的航行时间,lcell为环境空间中单位网格的长度,为AUV相对于海底的速度大小,即推进速度,由公式9计算得到;经过重新设计得到的奖励矩阵如下: 对奖励矩阵进行系统的设计后,利用重新设计得到的和根据公式2分别对Q-table进行学习和更新直至其收敛,得到Qf-table和Qr-table,分别表示为矩阵形式Qfs,a与Qrs,a;AUV学习到最优目标策略和为: 根据得到AUV的最优前进路径实现IPP任务: 根据得到AUV的最优返回路径为: 步骤2.3,混合路径规划方法实现AUV的自动返航功能在AUV沿着最优前进路径行驶的每一步,根据AUV已行驶的路径,用公式15计算AUV在当前位置p处的剩余能量Er: 其中,ei为子路径段上的能量消耗;找到最优前进路径上的下一个路径点p′,利用学习得到的Qr-table规划从p′到起始点的最优返回路径根据和计算AUV从当前位置p到下一路径点p′以及从下一路径点p′回到起点的最小能耗Em;将Er与Em进行比较,确定AUV的能量储备是否足够;若Er≥Em,则能量充足,AUV前往下一路径点p′继续采样,此时AUV的当前位置变为p′;否则,让AUV停止采样,并从收敛的Qr-table中找到从当前位置p返回起始点的最低能耗的返回路径Pr;此时,从起点到当前点AUV所行驶过的路径就是最终的前进路径Pf;连接Pf和Pr形成最终规划的闭合往返轨迹P。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人余姚市机器人研究中心;浙江大学,其通讯地址为:315400 浙江省宁波市余姚市凤山街道冶山路479号科创大厦12楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。