Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 广州尚航信息科技股份有限公司兰满桔获国家专利权

广州尚航信息科技股份有限公司兰满桔获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉广州尚航信息科技股份有限公司申请的专利一种基于强化学习的暖通系统多目标优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121206648B

龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511771034.5,技术领域涉及:F24F11/46;该发明授权一种基于强化学习的暖通系统多目标优化方法及系统是由兰满桔;刘杰;赵伟锋设计研发完成,并于2025-11-28向国家知识产权局提交的专利申请。

一种基于强化学习的暖通系统多目标优化方法及系统在说明书摘要公布了:本发明公开了一种基于强化学习的暖通系统多目标优化方法及系统,涉及建筑能源系统优化技术领域,该方法包括:基于采集到的暖通系统的环境参数、设备状态参数及历史运行数据构建状态空间;状态空间由经归一化与离散化处理后生成的状态向量组成;基于暖通系统的可控设备构建动作空间;动作空间由可控设备的运行模式与控制参数经离散化处理而生成;构建多目标奖励函数,以基于状态向量和动作空间评估控制效果;将状态向量作为输入,利用DoubleQ学习算法进行迭代训练,直至得到训练完成的控制模型;将当前采集的状态向量输入训练完成的控制模型,输出最优动作,以生成对暖通系统的控制指令。

本发明授权一种基于强化学习的暖通系统多目标优化方法及系统在权利要求书中公布了:1.一种基于强化学习的暖通系统多目标优化方法,其特征在于,包括: 基于采集到的暖通系统的环境参数、设备状态参数及历史运行数据构建状态空间;所述状态空间由经归一化与离散化处理后生成的状态向量组成; 基于暖通系统的可控设备构建动作空间;所述动作空间由所述可控设备的运行模式与控制参数经离散化处理而生成; 构建多目标奖励函数,以基于所述状态向量和所述动作空间评估控制效果; 将所述状态向量作为输入,利用DoubleQ学习算法进行迭代训练,直至得到训练完成的控制模型; 其中,在每次迭代中,由第一Q网络和第二Q网络分别对状态-动作值函数进行估计,通过交替选取第一Q网络和第二Q网络中的一个执行动作选择,另一个执行目标Q值计算,并基于所述多目标奖励函数来更新执行动作选择的网络的参数; 其中,在所述迭代训练过程中,采用自适应ε-greedy策略从所述动作空间中选择动作; 将当前采集的状态向量输入训练完成的控制模型,输出最优动作,以生成对所述暖通系统的控制指令; 所述将所述状态向量作为输入,利用DoubleQ学习算法进行迭代训练,直至得到训练完成的控制模型,包括: 初始化经验回放池,所述经验回放池用于存储经验元组,所述经验元组包括当前状态、执行的动作、获得的奖励以及执行动作后进入的下一状态; 初始化所述第一Q网络的参数与第二Q网络的参数; 初始化探索率ε; 重复执行以下步骤直至满足训练终止条件: a、观察当前时刻t的系统的状态向量s_t; b、基于当前的探索率ε,以ε的概率选择随机动作a_t,或以1-ε的概率选择使得第一Q网络的输出值最大的动作a_t;所述动作a_t为所述动作空间中的动作; c、在所述暖通系统上执行动作a_t,等待系统进入下一状态s_{t+1},并基于所述多目标奖励函数计算即时奖励r_t; d、将经验元组s_t,a_t,r_t,s_{t+1}存入所述经验回放池; e、从所述经验回放池中采样预设数量的经验元组; f、对于采样出的每个经验元组,随机选择更新第一Q网络或第二Q网络; h.根据新获取的经验元组所反映的系统性能,更新探索率ε,并将更新后的探索率ε用于下一迭代的步骤b; 所述f、对于采样出的每个经验元组,随机选择更新第一Q网络或第二Q网络,包括: 若选择更新第一Q网络,则: 将第二Q网络对于下一状态s_{t+1}下所有可能动作的输出值作为输入,提供给所述第一Q网络; 由第一Q网络从动作空间中选择一个使该输出值最大的动作,记为最佳动作a'_max; 将第二Q网络在下一状态s_{t+1}下对动作a'_max的输出值,与该个经验元组中的奖励r_t相加,得到目标Q值; 通过最小化第一Q网络对状态s_t和动作a_t的预测值与目标Q值之间的差异,来更新第一Q网络的参数; 若选择更新第二Q网络,则: 将所述第一Q网络对于下一状态s_{t+1}下所有可能动作的输出值作为输入,提供给所述第二Q网络; 由所述第二Q网络从所述动作空间中选择一个使该输出值最大的动作,记为最佳动作a''_max; 将所述第一Q网络在下一状态s_{t+1}下对动作a''_max的输出值,与所述经验元组中的奖励r_t相加,得到目标Q值; 通过最小化所述第二Q网络对状态s_t和动作a_t的预测值与目标Q值之间的差异,来更新所述第二Q网络的参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州尚航信息科技股份有限公司,其通讯地址为:510000 广东省广州市黄埔区瑞和路39号G5座601-620、701-720;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。