Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 上海砺群科技有限公司朱峰获国家专利权

上海砺群科技有限公司朱峰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉上海砺群科技有限公司申请的专利基于示范辅助的强化学习悬架控制方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120517116B

龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511014864.3,技术领域涉及:B60G17/015;该发明授权基于示范辅助的强化学习悬架控制方法、系统及存储介质是由朱峰设计研发完成,并于2025-07-23向国家知识产权局提交的专利申请。

基于示范辅助的强化学习悬架控制方法、系统及存储介质在说明书摘要公布了:本申请涉及车辆控制的技术领域,公开一种基于示范辅助的强化学习悬架控制方法、系统及存储介质,方法包括:根据示范样例使用克隆模仿学习算法进行控制策略初始化;根据预设的深度确定性策略梯度算法生成状态转移四元组集合;使用最小化贝尔曼误差算法学习评价者网络;根据策略参数最大化行动‑值函数的估计值学习行动者网络;状态转移四元组存入第一回放缓存中;从第一回放缓存中抽样多个状态转移四元组,更新评价者网络和行动者网络;根据当前状态的价值函数估计值与目标之间的均方误差得到价值函数损失;根据当前控制策略和示范样例产生者之间差值的最小值作为策略损失;根据总损失执行随机梯度下降优化控制策略的参数,提升训练样本效率。

本发明授权基于示范辅助的强化学习悬架控制方法、系统及存储介质在权利要求书中公布了:1.一种基于示范辅助的强化学习悬架控制方法,其特征在于,包括如下步骤: 根据获取到的示范样例使用克隆模仿学习算法进行控制策略初始化; 基于现有的历史策略根据预设的深度确定性策略梯度算法生成状态转移四元组集合,所述状态转移四元组包括当前状态、动作、奖励和下一状态; 对所述状态转移四元组集合中每个状态转移四元组,使用最小化贝尔曼误差算法学习评价者网络;根据策略参数最大化行动-值函数的估计值学习行动者网络; 所述状态转移四元组存入第一回放缓存中;设置第二回放缓存用于存储所述示范样例,所述第二回放缓存的数据格式与所述第一回放缓存相同,从所述第二回放缓存中抽取额外的释放样本放入所述第一回放缓存中,对所述评价者网络的参数和所述行动者网络的参数进行更新; 每次训练步骤中,从所述第一回放缓存中抽样多个所述状态转移四元组,根据抽样出的所述状态转移四元组更新所述评价者网络和所述行动者网络; 根据所述当前状态的价值函数估计值与目标之间的均方误差得到价值函数损失; 根据当前控制策略和示范样例产生者之间差值的最小值作为策略损失; 根据总损失执行随机梯度下降优化控制策略的参数; 迭代执行上述步骤多次,获取策略参数; 所述深度确定性策略梯度算法包括: 维护一个参数为θπ的行动者网络π(s)以及参数为θQ的评价者网络Q(s;a),回放缓存保存每一次行动产生的状态转移四元组(st;at;rt;st+1);s表示智能体所处的状态(state);a代表智能体执行的动作(action);r是执行动作后获得的奖励(reward),用于衡量该动作对悬架控制目标的优劣反馈;t时间步(timestep),用于标记序列决策过程中的不同时刻,体现状态、动作等随时间的动态变化;st+1为下一个状态的St; 交替运行策略行为进行数据收集和参数更新; 训练轨迹数据通过带有噪声的探索过程得到:at=π(s)+Nt,N(t)是噪声随机过程; 在每个训练步骤,从第一回放缓存中抽样一个最小批量N个状态转移四元组,用于更新所述评价者网络和所述行动者网络; 针对θQ最小化损失函数更新评价者网络: ;其中,Q值通用一个独立的目标网络进行计算,其权重为评价者网络的加权平均;yi是更新评价者网络时用到的目标Q值,用于构建损失函数的监督信号,引导评价者网络学习更准确的价值估计;γ是折扣因子,取值在[0,1]之间,用于权衡当前奖励和未来奖励的重要程度,接近1时更看重长远奖励,接近0时更关注即时奖励; ;L是评价者网络的损失函数,衡量预测的Q值Qsi,ai∣θQ与目标Q值yi之间的误差,通过最小化它更新评价者网络参数;N表示从回放缓存抽样的最小批量数据量; 同时采用策略梯度更新行动者的参数θπ: ;是行动者网络的策略梯度,用于更新行动者网络参数θπ,体现了为提升整体价值Q,行动者网络参数应调整的方向和幅度,其中,是价值函数对动作的梯度,是行动者网络参数对动作的梯度。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海砺群科技有限公司,其通讯地址为:201800 上海市嘉定区思义路1568号3幢B区3层301室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。