Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 合肥欧沃环保科技有限公司单化理获国家专利权

合肥欧沃环保科技有限公司单化理获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉合肥欧沃环保科技有限公司申请的专利基于深度强化学习的水体清洁设备路径优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120181361B

龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510500451.X,技术领域涉及:G06Q10/047;该发明授权基于深度强化学习的水体清洁设备路径优化方法是由单化理;冯新长;齐鑫;段云翔;胡志龙;魏胜设计研发完成,并于2025-04-21向国家知识产权局提交的专利申请。

基于深度强化学习的水体清洁设备路径优化方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的水体清洁设备路径优化方法,包括如下步骤:S1、利用传感器采集水体环境数据,并进行预处理;S2、建立路径优化的状态空间和动作空间,并构建奖励机制;S3、采用Transformer网络对预处理数据进行特征提取;S4、利用改进的信赖域策略优化算法对策略网络和价值网络进行训练,基于KL散度约束优化策略网络的更新步长,并基于策略梯度方法优化路径规划策略;S5、利用训练后的策略网络和价值网络进行路径规划;S6、计算水体清洁设备的能耗消耗,并调整水体清洁设备的运行模式或作业路径。本发明结合Transformer和改进的信赖域策略优化算法优化水体清洁设备路径规划,具备环境适应性强、能耗低、清洁效率高和作业稳定性强的优点。

本发明授权基于深度强化学习的水体清洁设备路径优化方法在权利要求书中公布了:1.一种基于深度强化学习的水体清洁设备路径优化方法,其特征在于,包括如下步骤: S1、利用传感器采集目标水域的水流速度、风力影响、漂浮物分布、障碍物位置和历史作业路径信息,并对所述数据进行预处理,生成预处理数据; S2、建立路径优化的状态空间和动作空间,并构建奖励机制; 所述状态空间包括水体清洁设备的当前位置、水流动态、漂浮物分布和障碍物信息,所述动作空间包括水体清洁设备的行进方向、速度和转向角度,所述奖励机制基于漂浮物清理效率、作业路径长度、能耗消耗和避障情况进行构建; S3、构建基于Transformer结构的策略网络和价值网络,采用Transformer网络对预处理数据进行特征提取,并采用多头注意力机制建模历史作业路径信息与当前环境状态之间的依赖关系,将提取的特征向量分别输入策略网络和价值网络; S4、根据构建的奖励机制,利用改进的信赖域策略优化算法对策略网络和价值网络进行训练,基于KL散度约束优化策略网络的更新步长,并基于策略梯度方法优化路径规划策略; S5、结合实时传感器数据,利用训练后的策略网络和价值网络进行路径规划,根据当前环境状态预测最优动作,并调整水体清洁设备的路径; S6、在路径规划过程中计算水体清洁设备的能耗消耗,并基于能耗消耗调整水体清洁设备的运行模式或作业路径; 所述S3具体包括: S31、构建基于Transformer结构的策略网络和价值网络,设定输入矩阵为 其中T表示时间步数,d表示输入数据的维度,设定初始输入矩阵X0为水体清洁设备的状态向量; S32、采用位置编码增强时间依赖关系,设定时间步索引t对应的编码: 其中,PEt,2i表示时间步索引t位置编码的第2i维分量,PEt,2i+1表示时间步索引t位置编码的第2i+1维分量,t表示时间步索引,d表示输入数据的特征维度; 将位置编码矩阵PEt叠加至输入矩阵: Xt=X0Wp+PEt; 其中,Xt表示位置编码后的输入矩阵,X0表示初始输入矩阵,Wp表示投影矩阵,用于匹配初始输入矩阵X0和位置编码矩阵PEt的维度,PEt表示置编码矩阵; S33、基于输入矩阵计算查询矩阵、键矩阵和值矩阵,引入全局衰减注意力项,并通过多头注意力机制进行特征聚合,计算多头输出,生成全局特征表示: X't=Concathead1,…,headhW0; 其中,headi表示第i个头的注意力权重,softmax表示归一化,Ct,l表示污染物浓度,Q、K和V分别表示查询矩阵、键矩阵和值矩阵,C表示矩阵转置操作,λ表示全局注意力平衡因子,表示控制时间步衰减权重,Vj表示其他时间步的值矩阵,X't表示全局特征表示,Concat表示拼接操作,W0表示输出变换矩阵,T表示最大时间步数; S34、将全局特征表示X't输入改进的前馈神经网络: X′'t=ReLUX'tW1+b1W2+b2+τ·LNX't; 其中,X′′t表示经过前馈神经网络的全局特征表示,W1和W2表示前馈神经网络的权重矩阵,ReLU表示非线性激活函数,b1和b2表示前馈神经网络偏置项,τ表示残差连接权重,LN表示层归一化函数; S35、对Transformer网络处理后的全局特征表示X′′t进行策略网络和价值网络的计算,所述策略网络的输出为策略概率分布,所述价值网络的输出为状态值函数: πAt|St=softmaxWπX′′t+bπ+ωt·tanhX′′t; 其中,πAt|St表示策略网络输出的策略概率分布,At表示水体清洁设备执行的动作集,St表示水体清洁设备的状态向量,Wπ和bπ表示策略网络的训练参数,ωt表示策略扰动因子,确保探索性,tanh表示双曲正切函数,VSt表示价值网络输出的状态值函数,WV和bV表示价值网络的训练参数,μt表示时间步折扣因子,ρ表示远期奖励衰减参数,Vk表示过去或未来时间步k的状态值函数,T表示最大时间步数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥欧沃环保科技有限公司,其通讯地址为:230000 安徽省合肥市蜀山区经济开发区湖光路自主创新产业基地三期(南区)A座7层西北区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。