Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学郭春生获国家专利权

杭州电子科技大学郭春生获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利基于极大化好奇心的子目标树机械臂避障路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116890339B

龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310917924.7,技术领域涉及:B25J9/16;该发明授权基于极大化好奇心的子目标树机械臂避障路径规划方法是由郭春生;马磊;应娜;杨萌;陈华华设计研发完成,并于2023-07-25向国家知识产权局提交的专利申请。

基于极大化好奇心的子目标树机械臂避障路径规划方法在说明书摘要公布了:本发明公开了一种基于极大化好奇心的子目标树机械臂避障路径规划方法,按如下步骤:步骤1:创建和注册强化学习环境;步骤2:构造子目标树的规划策略的奖励函数;步骤3:定义好奇心的评估方法,评估子目标的好奇心大小;步骤4:设计好奇心平衡模块;步骤5:设置参数;步骤6:在仿真环境中训练策略;步骤7:保存训练好的参数文件;步骤8:导入参数、调用模型、递归预测子目标生成子目标序列;步骤9:按照子目标序列依次进行规划,完成路径的规划。本发明能在复杂环境更高效地生成无障碍路径,提高了规划效率。

本发明授权基于极大化好奇心的子目标树机械臂避障路径规划方法在权利要求书中公布了:1.基于极大化好奇心的子目标树机械臂避障路径规划方法,其特征在于,按如下步骤: 步骤1:创建和注册强化学习环境; 步骤2:构造子目标树的规划策略的奖励函数; 步骤3:定义好奇心的评估方法,评估子目标的好奇心大小; 步骤4:设计好奇心平衡模块; 步骤5:设置参数; 步骤6:在仿真环境中训练策略; 步骤7:保存训练好的参数文件; 步骤8:导入参数、调用模型、递归预测子目标生成子目标序列; 步骤9:按照子目标序列依次进行规划,完成路径的规划; 步骤2中,奖励函数考虑范围包括当前目标是否为合法子目标,是否碰到障碍物,是否超出边界,是否为最后一个子目标,奖励记为 步骤2中,所述子目标是控制机械臂关节到达的目标关节角度,根据子目标奖励函数来确定子目标;对于每一个子目标sm,通过评估sm当前处于的位置greach与起始位置gbegin和目标位置gend之间的欧式距离和来判断子目标是否合法,dgap表示子目标与起始位置的欧式距离之差,当dgap<0.05且不发生碰撞,则子目标合法; Tfree表示自由工作空间,Tcol表示发生碰撞,表示起始位置gbegin和目标位置gend之间的欧式距离,gmidle表示子目标的起始位置的直线连线中点,子目标距离gmidle的距离越小,则表示子目标越优,表示中点gmidle与目标位置gend之间的欧式距离; 当子目标距离目标的距离小于dmin时给予奖励100,dmin设置为0.1; 步骤3中,当前时刻观察状态st与智能体选择的动作at输入到ICM的前向模型用于预测下一观察状态的特征向量预测值与实际值φst+1的差值作为好奇心奖励信号η表示比例因子,η设置为0.5;计算式如下: 步骤4中,规划策略πp在给定观察状态s情况下预测子目标sm,策略的学习目标是最大化选择的动作的好奇心并选择可行的动作以到达合适的子目标;智能体在时间t获得的奖励有好奇心奖励为和子目标奖励为总的奖励: 在每个更新步骤中,ICM和策略同时使用从经验重播缓冲区中采样的相同状态动作对进行训练; 策略πp使用TD3算法进行训练,用参数为θP的深度神经网络表示策略πpst;θP,输入智能体在时间t的观察状态st,策略πp根据st选择相应的动作at~πpst;θP,并执行动作,优化参数θP以得到最大化期望的奖励和: 设计一个超参数βt≥0来实现在训练时间步长第t个epoch时探索与利用之间的权衡;总的奖励改写为: βt的设置如下: 其中,Tcurios和Tend分别表示引入好奇心机制的起始时间和结束时间,ρ表示好奇心的衰减率; 步骤4中,好奇心平衡模块的输出一个超参数βt≥0,用来实现在训练时间步长第t个epoch时探索与利用之间的权衡;其中,Tend设置为βt小于0.01的时刻,ρ设置为1.0×10-5,β0设置为子目标奖励能达到的最大值;当训练过程逐渐深入,好奇心奖励rti将收敛为0,让策略最终指向回原有任务; Tcurios时刻计算如下,x[n]表示第t个epoch的前100epoch的测试奖励序列,y[n]是长度为20的全1序列,z[n]是长度为100的全1序列; 从第100epoch开始计算之后每隔50epoch计算一次对求方差,如果方差小于0.5则判断该时刻收敛,记为Tcurios。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。