首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于高效搜索策略在不确定性环境下的在线规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:福州大学

摘要:本发明提出一种基于高效搜索策略在不确定性环境下的在线规划方法,将机器人的状态视为一个信念,以POMDP算法初始化当前信念的上、下边界后,通过折扣化上下限表示当前信念的全部信息进而执行前向搜索构建信念树,以此获得当前信念下的最优策略;所述信念树的每一个节点代表一个信念,父节点与子节点通过行为‑观测分支连接。本发明提供的DESPOT‑DULB算法性能优于DESPOT和POMCP,在收敛速度以及策略质量上具有优势。

主权项:1.一种基于高效搜索策略在不确定性环境下的在线规划方法,其特征在于:将机器人的状态视为一个信念,以POMDP算法初始化当前信念的上、下边界后,通过折扣化上下限表示当前信念的全部信息进而执行前向搜索构建信念树,以此获得当前信念下的最优策略;所述信念树的每一个节点代表一个信念,父节点与子节点通过行为-观测分支连接;所述POMDP算法采用在线POMDP规划算法DESPOT-DULB,包括以下步骤:步骤S1:智能体在当前信念空间中随机采样k个状态以构建状态集合Φb;步骤S2:以信念节点b作为根节点b0构建信念树D,初始化当前信念节点b经验价值的上界Ub、下界Lb和RWDU最优值V*b的上界μb、下界步骤S3:定义智能体的当前信念节点b的不确定性为并进一步判断当前不确定性是否满足∈b<∈0或运行时间是否大于Tmax,如果条件满足,执行步骤S5,否则,执行步骤S4;步骤S4:对作为根节点b0的信念节点b进行前向搜索以扩展信念树;步骤S5:当扩展的作为子节点的信念节点b满足要求,信念树停止扩展并自下而上对节点执行备份BACKUPD,b,若遇到受阻节点,则执行剪切操作PRUNED,b;步骤S6:对于作为根节点b0的信念节点b,选择信念树返回的最大的对应的最优行为a*,即并与默认策略π0的值Lb比较,以选择最优行为;步骤S7:智能体重复以上的过程,直到到达目标点;步骤S2具体包括以下过程:利用经验值的计算形式其中Vπ,φ表示模拟策略π,计算每一个采样序列φ∈Φb的折扣奖励;其中对于Ub的计算通过假设状态是完全可观测的,将在线POMDP问题转换成在线MDP问题,然后计算MDP环境下的最优价值VMDP: 经验值下界的计算利用一个默认策略π0来获取,默认策略为固定行为或随机行为,对于每一个信念节点b的每一个序列Φb模拟默认策略进行有限次数的探索,计算每一个序列的折扣奖励再求平均值获得;对应的RWDU的上限μb和下限通过Ub和Lb依据正规化加权折扣效用函数RWDU: 求得: 其中,γ是一个折扣因子,|Φb|是通过节点b的采样序列数量,Δb表示节点b的深度,πb是节点b处的子树,|πb|表示πb的大小,|πb|=0,λ是正规化因子;指的是在b处执行默认策略π0的正规化加权折扣效用值;步骤S4具体包括以下过程:定义b′=τb,a,z为信念节点b采取某一行为a和获得观测z到达的子节点;当对信念节点b执行扩展更深节点的信念树操作时,首先通过步骤S2初始化所有信念节点b的所有子节点b′的值Ub′,Lb′,μb′和然后每一次的前向探索都为更快地将根节点b0处的节点不确定性∈b减小至目标不确定性ξ∈b,其中ξ∈0,1是一个常量;在探索的过程中,信念节点b的最优行为选择a*都依据信念节点b的折扣上下限信息 其中,ω是占比因子,ρb,a表示在信念节点b处执行行为a的带有正规化因子的平均折扣回报;具体定义为: K表示采样序列数,sφ表示采样序列φ的初始状态,Δb表示信念节点b的深度,Rsφ,a表示在初始状态sφ执行行为a的回报,γ是折扣因子,λ是正规化因子;在执行a*之后,通过选择使过度不确定性最大的观测z*来获得子节点b′=τb,a*,z*,以最大限度的减少不确定性: 其中,β是基于深度的函数,用于调整当前信念的不确定性,进一步保证信念树的搜索深度;β的定义:β=κΔb公式八;其中,κ为常数,κ>1,Δb表示信念节点b的深度;将以上信念树的扩展过程不断重复,直到出现下列情况:1信念树扩展到最大深度D,即Δb>D;2信念节点b的不确定性已经降到预期值,即Eb<0,继续探索对b没有意义;3节点b′的父节点b已经没有足够的采样序列: 其中,lb′,b表示从父节点b到b′路径上节点的数量;如果父节点b采样序列不够,则继续扩展父节点b会增加b′子策略树的数量可能会造成过拟合并且降低b′正则化的效果;如果在信念树扩展的过程中某些信念节点满足上式,则需要执行剪枝操作PRUNED,b。

全文数据:

权利要求:

百度查询: 福州大学 基于高效搜索策略在不确定性环境下的在线规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。