Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种列车在多场景下基于元强化学习的控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆交通大学

摘要:本发明提供了一种列车在多场景下基于元强化学习的控制方法,其特征在于:包括旧任务数据收集模块、旧任务模型训练模块、新任务曲线生成模块和列车控制模块;所述控制方法包括:旧任务数据收集模块收集旧任务产生的多个自动驾驶曲线,然后按3种场景类型分为3个训练样本集,然后利用3个训练样本集分别训练得到3个可用模型,可用模型训练中结合对比学习和元强化学习的方法,然后在新任务中,根据新任务对应的场景类型选择相应的可用模型,通过对模型参数进行微调,快速生成新的驾驶速度曲线控制列车运行。采用本发明的控制方法,能在列车遇到新任务时快速、高效地生成列车的驾驶速度曲线,提高运营效率、减小经济损失。

主权项:1.一种列车在多场景下基于元强化学习的控制方法,其特征在于:包括旧任务数据收集模块、旧任务模型训练模块、新任务曲线生成模块和列车控制模块;所述控制方法包括:设列车运行于某线路的某两个相邻站点之间的路段,将所述路段记为目标子线路;设列车在所述目标子线路上运行需要重新生成驾驶速度曲线时涉及的3种场景类型包括:调度时间调整、临时限速和临时停车;一所述旧任务数据收集模块按方法一收集列车在旧任务下生成的3个驾驶速度曲线数据集,然后旧任务数据收集模块将3个驾驶速度曲线数据集传输给旧任务模型训练模块;3个驾驶速度曲线数据集分别与3种所述场景类型一一对应;二所述旧任务模型训练模块按方法二训练得到3个可用模型;然后旧任务模型训练模块将3个可用模型传输给新任务曲线生成模块;三新任务曲线生成模块对3个可用模型进行加载;当列车处于3中所述场景之其中一种情况下需要重新获取驾驶速度曲线时:1列车控制模块获取列车当前所处的场景类型和新任务参数,然后将列车当前的场景类型和新任务参数传输给新任务曲线生成模块;2然后新任务曲线生成模块根据新任务参数按方法三控制当前场景类型对应的可用模型生成新的驾驶速度曲线;然后新任务曲线生成模块将所述新的驾驶速度曲线传输给列车控制模块,列车控制模块根据新的驾驶速度曲线控制列车运行;所述旧任务是指在调度时间调整、临时限速或临时停车场景下根据旧任务参数生成驾驶速度曲线;新任务是指在调度时间调整、临时限速或临时停车场景下根据新任务参数生成驾驶速度曲线;新任务参数和旧任务参数二者的参数中均包括临时调度时间、临时限速值或临时停车位置,新任务参数中的临时调度时间、临时限速值或临时停车位置与旧任务参数中相应参数的值不同;所述方法一包括:A1旧任务数据收集模块收集多个旧任务下生成的驾驶速度曲线数据,然后对收集的所有驾驶速度曲线数据进行图像化处理,得到多个驾驶速度曲线;A2旧任务数据收集模块针对3种场景类型分别按以下方式对多个所述驾驶速度曲线进行分类,得到3个驾驶速度曲线数据集:针对调度时间调整的场景:将因为临时调度时间调整而生成的多个驾驶速度曲线按不同的临时调度时间进行分类;设有多个临时调度时间,每个临时调度时间下生成有多个驾驶速度曲线,则将同一个临时调度时间下生成的多个驾驶速度曲线记为一个第1数据子集,多个第1数据子集组成第1驾驶速度曲线数据集;针对临时限速的场景:将因为临时限速而生成的多个驾驶速度曲线按不同的临时限速值进行分类;设有多个临时限速值,每个临时限速值下生成有多个驾驶速度曲线,则将同一个临时限速值下生成的多个驾驶速度曲线记为一个第2数据子集,多个第2数据子集组成第2驾驶速度曲线数据集;针对临时停车的场景:按临时停车点距离目标子线路终点的距离将临时停车位置从近到远分为5个类别:近、较近、中间、较远和远,对应于每个类别的临时停车位置下生成有多个驾驶速度曲线,将同一个类别的临时停车位置下生成的多个驾驶速度曲线记为一个第3数据子集,5个第3数据子集组成第3驾驶速度曲线数据集;所述方法二包括:旧任务模型训练模块构建3个DQN深度强化学习模型,单个DQN深度强化学习模型包括一个由深度神经网络构建的编码器和Q网络,3个DQN深度强化学习模型与3个驾驶速度曲线数据集一一对应;旧任务模型训练模块利用3个驾驶速度曲线数据集分别对3个深度强化学习模型进行训练得到3个可用模型,3个可用模型包括第1可用模型、第2可用模型和第3可用模型,所述第1可用模型、第2可用模型和第3可用模型分别与所述调度时间调整、临时限速和临时停车3种场景类型对应;其中,单个可用模型按以下方式获取:设第i驾驶速度曲线数据集为3个驾驶速度曲线数据集中任意一个,设第i驾驶速度曲线数据集有n个数据子集,设n个数据子集中共有m个驾驶速度曲线;设第i驾驶速度曲线数据集与第iDQN深度强化学习模型对应;i为1到3的整数;B1从同一个数据子集里选取多个驾驶速度曲线组成第一样本集,从n个数据子集里各抽取一个驾驶速度曲线组成第二样本集;B2第iDQN深度强化学习模型的编码器采用对比学习的方法对第一样本集和第二样本集进行处理,根据对比损失函数对编码器的参数进行优化更新,得到优化编码器;B3第iDQN深度强化学习模型根据m个驾驶速度曲线对应的旧任务参数采用元强化学习的方法训练优化第iDQN深度强化学习模型的参数θ,得到第i可用模型;其中第iDQN深度强化学习模型利用优化编码器对m个驾驶速度曲线进行特征提取,得到每个对应旧任务的特征表示,然后第iDQN深度强化学习模型将得到的单个旧任务的特征表示作为元强化学习训练时的状态输入;所述方法三包括:设新任务的场景类型对应的可用模型为第i可用模型;新任务曲线生成模块调用第i可用模型,然后根据新任务参数利用第i可用模型的模型参数θ对Q网络的参数ω进行微调,然后新任务曲线生成模块采用深度强化学习方法生成新的驾驶速度曲线。

全文数据:

权利要求:

百度查询: 重庆交通大学 一种列车在多场景下基于元强化学习的控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。