买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工商大学
摘要:本发明是一种基于双经验池TDDPG和DDPG‑双重3Q学习模型的水体富营养化预测方法,用于水质监测。本发明方法将水体富营养化预测问题转换为马尔可夫决策问题,获取水体富营养化的水质多参数时序,构建基于双经验池的TDDPG预测模型、ADDPG预测模型和RDPG预测模型,由历史数据预测未来水质数据;将三个预测模型的初步预测结果、预测结果的误差分别作为第一重和第二重3Q学习的状态集,智能体在单个时间步决策选择的初步预测结果和误差,将二者叠加获取最终预测结果,计算水体富营养化程度。本发明提高了预测水质数据的精度和准确性,避免陷入局部最优,兼顾了训练效率,为水体富营养化预测提供了准确有效的实用方案。
主权项:1.一种基于双经验池TDDPG和DDPG-双重3Q学习模型的水体富营养化预测方法,其特征在于,包括如下步骤:步骤1:获取目标水域的水质监测数据,用马尔可夫决策过程表示水质监测时序数据,将水体富营养化的预测问题转换为马尔可夫决策问题;从目标水域的水质监测数据中得到历史水质多参数时序数据,将水体富营养化的预测问题转换为马尔可夫决策问题,马尔可夫决策过程中的状态st对应t时刻的一组水质参数,动作对应预测操作,智能体对状态st执行一个动作后转移到下一个状态st+1;由预测的未来时间的水质参数评估水体富营养化程度;步骤2:对历史水质多参数时序使用双经验池TDDPG预测模型进行预测,输出未来时间的水质多参数时序;所述的双经验池TDDPG预测模型构建方式包含:步骤21:改进DDPG网络,设置专家经验池,与随机经验池构成双经验池;训练时Actor在线网络将预测的四元组存入随机经验池,同时Critic网络在更新目标Q值函数时生成下一时刻的近似估计动作,将近似估计动作所对应的四元组存入专家经验池;训练过程中从双经验池中随机抽取样本进行训练;所述四元组为当前状态,动作,奖励,下一时刻状态;步骤22:设置DDPG网络中的Actor在线网络与Actor目标网络各使用一个独立的Transformer结构对输入的水质多参数时序提取状态特征,再输入Actor网络进行动作决策;步骤23:标记双经验池TDDPG预测模型中的智能体为第一智能体;优化动作的决策策略,使得第一智能体与环境交互后获得的总奖励值最大化,总奖励值越大代表智能体预测越准确;设双经验池TDDPG预测模型输出未来时间的水质多参数时序的第一初步预测结果;步骤3:构建ADDPG预测模型和RDPG预测模型,输入历史水质多参数时序,预测未来时间的水质多参数时序;所述的ADDPG预测模型使用Attention网络对历史水质多参数时序提取特征,再使用步骤21改进的DDPG网络进行动作决策;标记ADDPG预测模型中的智能体为第二智能体,优化第二智能体的动作决策策略;设通过ADDPG预测模型输出未来时间的水质多参数时序的第二初步预测结果;所述的RDPG预测模型使用LSTM网络对历史水质多参数时序提取特征,再使用步骤21改进的DDPG网络进行动作决策;标记RDPG预测模型中的智能体为第三智能体,优化第三智能体的动作决策策略;设通过RDPG预测模型输出未来时间的水质多参数时序的第三初步预测结果;步骤4:构建DDPG-双重3Q学习模型,对未来时间的水质多参数时序进行最终预测;所述DDPG-双重3Q学习模型中,将第一、第二和第三初步预测结果作为状态模型集输入第一重3Q学习,设DDPG-双重3Q学习模型中的智能体为B,智能体B决策单个时间步选择的初步预测结果及对应的预测模型;将第一、第二和第三初步预测结果的误差作为状态模型输入第二重3Q学习,智能体B决策单个时间步选择的误差及对应的预测模型;在单个时间步,智能体B将决策的误差补偿到决策的初步预测结果,获得该时间步对水质多参数数据的最终预测结果;步骤5:通过滑动窗口对输入的历史水质多参数时序采样,输入双经验池TDDPG模型、ADDPG预测模型和RDPG预测模型获得初步预测结果,再由DDPG-双重3Q学习模型决策输出最终预测的水质多参数时序,根据最终预测的水质多参数时序确定水体富营养化程度。
全文数据:
权利要求:
百度查询: 北京工商大学 基于双经验池TDDPG和DDPG-双重3Q学习模型的水体富营养化预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。