北京交通大学董海荣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京交通大学申请的专利一种基于合作竞争博弈的列车运行实时调整方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118722789B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410629200.7,技术领域涉及:B61L27/10;该发明授权一种基于合作竞争博弈的列车运行实时调整方法是由董海荣;周敏;周晓敏;汪小勇;吕金虎设计研发完成,并于2024-05-21向国家知识产权局提交的专利申请。
本一种基于合作竞争博弈的列车运行实时调整方法在说明书摘要公布了:本发明涉及一种基于合作竞争博弈的列车运行实时调整方法,方法包括:基于指定线路的线路静态数据、初始时刻的动态数据;约束条件,建立训练目标网络过程中的即时奖励函数和延时奖励函数;即时奖励函数是在各列车未到达终点站时基于竞争博弈策略和列车自身的延误时间获得的;延时奖励函数是各列车到达终点站后基于合作博弈策略和所有列车总的延误时间获得的;训练更新的策略网络,并实时获取策略网络的损失函数;在损失函数和奖励函数满足收敛条件时,获得训练后的策略网络,用于实现对列车运行图的实时调整。上述方法使用多列车博弈深度强化学习不断与环境进行学习和交互,解决了复杂多变的列车运行环境造成建模难的问题。
本发明授权一种基于合作竞争博弈的列车运行实时调整方法在权利要求书中公布了:1.一种基于合作竞争博弈的列车运行实时调整方法,其特征在于,包括:S10、获取指定线路的线路静态数据和与指定线路关联的所有列车初始时刻的动态数据;S20、基于预先定义的约束条件、指定线路内各列车初始时刻状态,建立训练策略网络过程中的即时奖励函数和延时奖励函数;所述即时奖励函数是在各列车未到达终点站时基于竞争博弈策略和列车自身的延误时间获得的;所述延时奖励函数是各列车到达终点站后基于合作博弈策略和所有列车总的延误时间获得的;S30、所有列车未到达终点站时,基于列车和强化学习环境进行交互的随机性和纳什均衡策略,判断是否满足预先定义的约束条件及即时奖励函数满足的第一条件,来选择列车动作,更新列车状态,获取更新的策略网络;S40、所有列车到达终点站之后,根据合作博弈策略的延时奖励函数,训练更新的策略网络,并实时获取策略网络的损失函数;在损失函数和奖励函数满足收敛条件时,获得训练后的策略网络,用于实现对列车运行图进行实时调整;即时奖励函数Rt,i为: 延时奖励函数Rt1,i为: 其中,F表示乘积因子,H_dis_end-H_dis_start表示区间中断时间,rt,i表示在时间t时列车i在始发站nt,i=0设置为出发时间减去计划出发时间ai,n、分别表示列车i在车站n的到达时间,计划到达时间;包括即时奖励函数和延时奖励函数的奖励函数,表示为: T为自变量,t1表示列车运行图调整时间区间的最终时间;所述预先定义的约束条件包括:出发时间限制:区间最小运行时间限制:相邻列车间隔限制:|ai,n-ai',n|≥a_hn,i'∈SM1.3|di,n-di',n|≥d_hn,1.4|di,n-ai',n|≥da_hn,1.5车站容量限制: 越行限制:di,n>di′,n☉ai,n+1>ai’,n+1=1,1.8停站时间限制:区间中断时间限制: 其中,SN表示车站的集合,SM表示列车的集合;最后一列从始发站出发的列车编号为M,终点站的编号为N;di,n、di',n分别表示列车i、相邻列车i’在车站n的出发时间,表示列车i在车站n的计划出发时间,ai,n+1表示列车i在下一站n+1的到达时间,为给定的最小运行时间;ai,n、ai',n分别表示列车i、相邻列车i'在车站n的到达时间,a_hn和d_hn分别为列车i和相邻列车i'在车站n的到达和出发的最小时间间隔,da_hn表示同一车站n的列车i和相邻列车i’的发到间隔约束;xt,i,n表示在时间t时刻车站n的列车i;Cn为每个车站的通行能力;表示最小停站时间;SNK表示中断区段;H_dis_start,H_dis_end分别表示中断的开始和结束时间;列车在时间t的状态St,i表示为:在初始时刻t0的状态表示为:列车i在时间t的活动actiont,i设置为: 其中,当前列车i的到达时间为和出发时间为nt,i表示列车i在当前时间t所在的车站或最后经过或到达的车站;所述第一条件为:Rt,iaction*t,i,action*t,-i≥Rt,iactiont,i,action*t,-i;action*t,i表示列车i的纳什均衡策略,action*t,-i表示除列车i之外所有列车都采取纳什均衡策略;在第一条件中,假设actiont-1,i=1并满足到达条件和出发条件,当随机数rand≤ò时随机选择动作actiont,i的取值,使列车i在强化学习环境中不断探索;如果选择的actiont,i=1,表示列车i在时间t通过车站n,nt,i=nt-1,i+1,当actiont,i=0时,表示列车i在时间t到达车站n;假设actiont-1,i=1并满足到达条件不满足出发条件时,令actiont,i=0,表示列车i在时间t到达车站n;假设actiont-1,i=1并且不满足到达条件,令actiont,i=1,表示列车i在时间t在车站n-1和车站n之间的区间上运行;假设actiont-1,i=0并且满足出发条件,则当随机数rand>ò时根据策略网络QSt,i,actiont,i,θ选择动作actiont,i取值,当随机数rand≤ò时随机选择动作actiont,i取值;选择的actiont,i=1时,表示列车i在时间t从车站n-1出发,当actiont,i=0时,表示列车i在时间t停在车站n-1;假设actiont-1,i=0并且不满足出发条件,令actiont,i=0,表示列车i在时间t停在车站n-1;动作actiont,i选择完后,列车采取选择好的动作actiont,i,会获得即时奖励函数和延时奖励函数,并推断下一个状态,按照即时奖励函数和延时奖励函数对策略网络进行更新;所述S40包括:更新的策略网络QSt,i,actiont,i,θ为: 损失函数loss为: 表示求平均值,rand为随机数; 表示强化学习环境中帮助策略网络更新设置的目标网络,目标网络与策略网络的架构相同,目标网络使用软更新来更新参数,θ和θ′表示待训练的策略网络的网络参数和目标网络的网络参数;γ表示折扣因子,α表示学习率,D表示经验池,UD表示所有经验池中数据St,i,actiont,i,Rt,i,St+1,i的集合;列车每次与强化学习环境交互都会得到一组数据St,i,actiont,i,Rt,i,St+1,i,放入到经验池中,用来训练策略网络。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京交通大学,其通讯地址为:100044 北京市海淀区上园村3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。