首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向任务分配公平的异构车队取送货车辆路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北师范大学

摘要:本发明提供了一种面向任务分配公平的异构车队取送货车辆路径规划方法。在第一阶段,采用了最短耗时策略的车辆选择方法。在第二阶段,提出了一种新颖的并行编码器‑解码器结构的模型,即具有并行编码器的异构注意力模型,该模型融合了不同的注意力机制来自动选择订单,以学习构建解决方案,旨在最小化车队中车辆的总行程时间。实验结果表明,该方法在大部分数据集上任务分配相对公平并且完成任务的时间消耗均优于其他深度强化学习方法和大多数传统启发式方法,同时在大规模订单场景下表现出了明显的优势。本方法通过优化路线和避免不必要的出行等方式,降低行驶里程和成本、减少燃料消耗、碳排放和运营成本,同时促进可持续发展,提高环保意识和经济效益。

主权项:1.一种面向任务分配公平的异构车队取送货车辆路径规划方法,其特征在于包括下述步骤:定义:TF2PDSHF全称为TaskFairness-orientedFlexiblePickupandDeliveryServicesforHeterogeneousFleets,即面向任务公平的异构车队柔性取送货服务问题,是本发明设计的新问题,STCS全称为ShortestTimeConsumingStrategy,即最短耗时策略,是本发明设计的车辆选择策略,HAMPE全称为HeterogeneousAttentionModelwithParallelEncoders,即具有并行编码器的异构注意力模型,本发明设计了一种新颖的并行编码器-解码器结构的模型,其中编码器和解码器使用了不同的注意力模型,预先训练具有不同维度的信息,以更好的感知到环境的动态变化来自动选择订单,从而尽可能确保车辆每个时间步的行驶时间最短;步骤1:对TF2PDSHF的混合整数规划公式进行问题建模;本发明定义将物流车辆从车场出发,对所有订单的服务节点进行取送货服务并最终返回车场的行为,定义成服务集合X:其中H表示车辆从车场的出发和返回服务集合,P表示车辆对货主的取货服务集合,D表示车辆对客户的送货服务集合,K表示车辆需要提供的服务总数量,表示服务节点xi的第s个服务地点,Si是支撑服务节点xi的子节点集合,即当服务节点xi是货主时,Si为该货主的取货地点集合;当服务节点xi是客户时,Si为该客户的收货地点集合,表示服务地点的位置坐标,表示服务地点的服务开始时间,表示服务地点的服务结束时间,订单集合其中M为订单总数量,每个订单定义为om:xp,xd,wm,p∈P,d∈D,表示订单om要求货主节点xp给客户节点xd配送货物重量wm,车辆集合定义V为车辆总数量,Qv为车辆kv的最大载重,令为服务节点xi中的第p个服务地点和服务节点xj中的第d个服务地点之间的欧氏距离,令为车辆kv从服务地点直接行驶到服务地点令为车辆kv从服务地点行驶到服务地点的时间,令为车辆kv离开服务地点的时间,令为车辆kv离开服务地点后车辆的负载总重量,令G为一个足够大的值,用于确保取货和交货的两个约束中只有一个有效,令为车辆kv离开服务地点的速度,然后,TF2PDSHF的目标函数可以表示为: 步骤2:马尔可夫决策过程建模;在TF2PDSHF中车辆从车场出发分步取送货的过程也可以看作是一个顺序决策问题,因此,本发明将这样的路线构建过程建模为马尔可夫决策过程MarkovDecisionProcess,MDP,由四元组M={S,A,τ,R}表示,S表示状态空间,A为动作空间,τ为状态转移规则,R为奖励函数,MDP的元素,即状态空间、动作空间、转换规则和奖励函数定义如下:步骤2.1:状态;在本发明的MDP中,每个车辆状态由三部分组成,第一部分是当前车辆位置距未完成订单相应取送货地点的距离,表示为其中表示车辆kv在步骤t时距订单om相应取货或送货地点位置的距离,第二部分是未完成订单的装卸载重量Ut,表示为其中是表示在步骤t时订单om需要装载或者卸载的重量,第三部分是所有订单的状态Zt,表示为其中是表示在步骤t时订单om的状态订单有三种状态待运状态等于0、在运状态等于1、完成状态等于2;步骤2.2:动作;在路径构建过程中,在at∈A处的动作表示为即在步骤t时选择车辆ku和订单om,以使车辆kv完成订单om的取货或送货服务;步骤2.3:状态转移规则;转换规则τ将根据在处执行的动作,将选择车辆kv的前一个状态st转换到下一个状态st+1,即中的元素更新如下: 其中是车辆当前位置,是当前状态未完成订单的相应服务地点,Ut中元素更新如下: 订单的状态Zt中元素更新如下: 步骤2.4:奖励;对于TF2PDSHF,为了最小化车辆完成所有订单的时间,奖励定义为该值的负值,那么奖励表示为: 其中是在时间步t处车辆kv的行程时间和等待时间的负值,假设分别在时间步t和t+1处访问取货或送货地点和则表示如下: 其中,是从地点到的时间;步骤3:构建基于深度强化学习方法的两阶段框架;本发明专注于学习一种新颖的两阶段框架,第一阶段基于最短时间消耗策略来进行车辆的选择,第二阶段基于编码器-解码器架构的策略网络来进行订单的选择,然后,通过价值网络更新策略网络,以产生更好的决策,如图2所示,首先基于STCS选择车辆kv,然后策略网络πθat|st和价值网络Vωst对有关车辆kv的相关状态执行一次计算,其中策略网络选择一个订单om进行处理,其次,环境会根据选择的订单状态zm判断是取货还是送货,并根据当前时间或选择具有合适时间窗的取货地点或者送货地点进行访问,最后,环境向价值网络提供一个奖励,同时,环境会更新所有车辆的状态信息,策略网络和价值网络会重复这一过程,直到所有订单都被处理完成,在这个过程中,价值网络会根据输入的数据和奖励来评估在当前状态下选择订单的价值,以指导策略网络学习一个更好的策略;为了解决TF2PDSHF,本发明提出了一个具有编码器-解码器结构的模型HAMPE作为策略网络和价值网络,其设计如图3所示,需要先将当前选择车辆kv的原始特征中所有服务节点的服务地点数量Embedding为Si,同时将Embedding得到的及原始特征Ut、Zt进行归一化,可访问点为[0,0.5],不可访问点为1,并线性投影到维数dim=256的高维空间中,表示如下: 其中Wd,Wu,Wz为可训练参数,然后编码器依靠卷积块注意力机制来学习丰富的状态信息,以更好地提取的特征来丰富解码器的上下文信息,解码器依靠多头自注意力机制来融合并行编码器的输出,以促使智能体做出更有效的决策,最后策略网络使用掩码机制和Softmax层来生成每个订单的概率向量以进行订单的选择,而价值网络直接通过线性层来估计每个动作的价值;步骤3.1:通过三个并行编码器分别将每个增强的节点嵌入Ut和Zt进行处理,每一个编码器都由一个卷积块注意力CBA和前馈FF组成,其中CBA由渠道注意力CA和空间注意力SA组成,首先每个增强的节点嵌入要reshape为4维向量和然后进入CA;第一个编码器的CA子层用来处理同时通过自适应Maxpool和自适应Avgpool后得到向量和分别经过多卷积层MCL,输出后拼接并使用跳跃连接,表示如下: 其中MCL由两个卷积层和一个Relu激活函数组成,表示如下: 第一个编码器的SA子层用来处理CA的输出将沿着第一个维度dim=1同时取最大值和平均值后得到向量和拼接后经过卷积层并使用跳跃连接,表示如下: CBA子层的最终输出首先使用跳跃连接并reshape为向量表示如下: 然后跳跃连接和批量归一化后被馈送到FF子层,这里的FF子层也使用了跳跃连接和批量归一化层,表示如下: 其中,上式FF子层表示具有256维隐藏子层并使用Tanh激活的全连接层,表示如下: 其中Wα,Wβ,bα,bβ是可训练参数,第二个和第三个编码器分别处理和得到向量和步骤3.2:解码器由一个多头注意力MHA和一个前馈FF组成,三个并行编码器的输出和分别投影为作为解码器多头注意力MHA中的Query、Key和Value向量,具体步骤如下式所示: 其中dk=dhY=32,Y=8是attention中的头数,是可训练参数,然后解码器连接所有这些头部,表示如下: 其中WO为可训练参数,之后,MHA子层的输出被馈送到具有Tanh激活函数的FF子层,以获得下一个更新嵌入总结如下: 每次通过一个解码器来更新MHA中的Query向量,经过这样N个解码器的更新得到嵌入然后,对其进行线性投影,如下所示: 其中,参数Wγ和bγ为可训练参数,同时,每一步都会动态屏蔽当前车辆下的无效订单,以保证可行性,最后,使用softmax函数进一步处理Ht以计算概率向量,如下所示: 其中及其元素表示在时间步t时使用车辆kv处理订单om的概率,策略网络可以根据向量采样来选择订单;步骤4:构建基于AdvantageActor-Critic的强化学习训练算法;HAMPE的训练使用AdvantageActor-Critic算法,训练用于订单选择的策略网络参数及评价其好坏的价值网络参数,策略网络πθ,在每个解码步骤生成订单的概率向量,根据该概率选择一个订单作为动作,价值网络Vω,与策略网络具有相似的结构,该网络生成的值是对策略网络选取的动作进行评价;每次迭代中,为每个问题实例构建路线,策略网络每步选择一个要处理的订单ai,j~πθai,j|si,j,随后获取每一步解决方案的奖励ri,j并更新到下一个状态si+1,j,选择完所有订单后为每一步计算时序差分残差,其用于指导策略梯度进行学习,如下所示:δij=ri,j+γVωsi+1,j-Vωsi,j通过更新价值网络参数ω,来改善策略,提高行为质量,并通过更新策略网络的参数θ,来更好地估计状态值函数,从而提高预测的准确程度,如下所示: 然后进行梯度裁剪,以防止梯度爆炸,同时使用线性递减的γ值,以加快模型的收敛速度,如下所示:θ=Clip_gradθ,max=1.0γ=Maxγ′,γ-η不断重复上述步骤直到达到停止条件或满足收敛条件,最终得到最短的车辆总行程时间。

全文数据:

权利要求:

百度查询: 西北师范大学 一种面向任务分配公平的异构车队取送货车辆路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。