买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京邮电大学
摘要:本发明公开了一种基于进化深度强化学习的商业建筑HVAC控制方法及系统,包括:获取商业建筑HVAC控制模型;将HVAC控制模型设计为与风阀控制和区域供风速率控制相关的马尔可夫博弈问题;采用多智能体注意力进化深度强化学习算法并行求解马尔可夫博弈问题,得到多组多智能体群的最优控制策略;对不同种群的最优控制策略进行重组并将其作为规模更大的多智能体群的初始策略;重复求解规模更大的马尔可夫博弈问题直到种群规模与风阀数量与区域数量之和相等,最终得到HVAC系统的最优控制策略;将训练得到的HVAC最优控制策略部署到实际系统进行在线控制。相比现有方法,本发明可在维持高舒适性的同时显著降低能量成本。
主权项:1.一种基于进化深度强化学习的商业建筑HVAC控制方法,其特征在于,所述方法包括:获取预先建立的多区域商业建筑HVAC控制模型;将HVAC控制模型转化为与风阀智能体和区域供风智能体相关的马尔可夫博弈问题;采用多智能体注意力进化深度强化学习算法并行求解马尔可夫博弈问题,最终训练出多组智能体种群的最优控制策略;利用训练得到的多组智能体种群的最优控制策略进行性能测试,筛选出测试阶段的若干组智能体种群;对筛选出的若干组智能体种群的深度神经网络权重进行重组;将重组后的深度神经网络权重作为规模更大的多智能体种群模型的初始权重,重复求解规模更大的马尔可夫博弈问题直到智能体种群的规模等于区域数量与风阀数量之和,筛选出适应度最高的一组多智能体种群,进而得到风阀智能体和区域供风智能体的最优控制策略;将得到风阀智能体和区域供风智能体的HVAC最优控制策略部署到实际HVAC系统进行在线控制;所述HVAC控制模型包括目标函数、决策变量和约束条件;所述目标函数表达式如下: 式中:Φ1,t表示与送风机相关的能量成本,Φ2,t表示与冷却盘管相关的能量成本;其中:送风机相关的能量成本表示为: 式中:近似为送风机相关的能耗,μ是常数系数,mi,t表示i区域t时隙内空气供给速率,pt表示t时隙下的电价,τ表示一个时隙的持续时间;冷却盘管相关的能量成本表示为:Φ2,t=Ptptτ3其中:Pt为t时隙下冷却盘管能耗,表示为: 式中:Ca表示空气的比热容,η是冷却盘管的效率系数,COP是和冷却器相关的性能系数,是t时隙下混合空气的温度,Ts是送风机的送风温度;所述决策变量包括每个区域的空气供给速率mi,t和HVAC中空气处理机组的风阀位置σt,表达式如下:mi,t∈{m1,m2,...,mM}5 式中:mi,t其值可从M个离散级别中选择,总空气供给速率要小于所有区域最大空气供给速率之和,σt的值从Z个离散级别中选择:σt∈{σ1,σ2,...,σZ}7 当σt=0时,表示混合空气中只有室外新鲜空气,而当σt=1时,表示混合空气全部来自每个区域的回风;所述约束条件包括与室内温度和二氧化碳浓度相关的约束,表达式如下:若表示i区域在t时隙下的室内温度,则有: 式中:Ki,t表示i区域t时隙下的室内人数,Timin和Timax分别表示i区域舒适温度范围的最低值和最高值;cbi,t表示i区域t时隙下的二氧化碳浓度,则有: 式中:表示i区域室内二氧化碳浓度舒适范围上限值;所述马尔可夫博弈问题包括状态、动作和奖励函数:环境状态St的表达式如下:St=o1,t,o2,t,...,on,t,o*,t11式中:o1,t,o2,t,...,on,t中oi,t表示与i区域t时隙内空气供给速率决策相关的智能体的观测状态,1≤i≤n,o*,t表示t时隙与风阀位置决策相关的总控智能体的观测状态,o*,t=cb1,t,...,cbi,t,...,cbn,t,K1,t,...,Ki,t,...,Kn,t,Ttout为i区域t时隙的室外温度,Ttin为i区域t时隙的室内温度,为i区域t时隙的相邻j区域的室内温度,Ni表示i区域的相邻区域集合,pt为t时隙的电价,t'为t时隙当前绝对时间在一天内的相对时间,cbi,t为i区域t时隙的二氧化碳浓度,Ki,t为i区域t时隙的占用人数;所述动作At的表达式如下:At=m1,t,...,mi,t,...,mn,t,βt12式中:mi,t为HVAC的i区域t时隙的空气供给速率,βt为HVAC的风阀位置;所述奖励函数Rt的表达式如下: 式中:R1,i,t为i区域t时隙与空气供给速率决策相关的智能体所获得的奖励,R2,i,t为t时隙与风阀位置决策相关的总控智能体所获得的奖励,α为HVAC能量成本对于舒适温度范围偏离导致的惩罚成本的重要性系数,β为室内二氧化碳浓度超出上限导致的惩罚成本对于舒适温度范围偏离导致的惩罚成本的重要性系数,C1,i,toi,t为i区域t时隙内因违背室内舒适温度范围导致的惩罚成本,为i区域t时隙对应送风机能量成本相关的惩罚,为i区域t时隙对应冷却盘管能量成本相关的惩罚,C4,i,toi,t为i区域t时隙内因违背室内二氧化碳浓度上限值导致的惩罚成本,为所有区域t时隙对应冷却盘管能量成本相关的惩罚,C6,to*,t为所有区域t时隙内因违背室内二氧化碳浓度上限值导致的惩罚成本。
全文数据:
权利要求:
百度查询: 南京邮电大学 一种基于进化深度强化学习的商业建筑HVAC控制方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。