Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜安徽农业大学刘司雨获国家专利权

恭喜安徽农业大学刘司雨获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜安徽农业大学申请的专利一种基于DDQN算法的配送车辆动态调度优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117726040B

龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311830634.5,技术领域涉及:G06Q10/04;该发明授权一种基于DDQN算法的配送车辆动态调度优化方法是由刘司雨;王超;王琴;董彩月;李彬;乔梓岩;高羽佳;辜丽川;邹能锋设计研发完成,并于2023-12-27向国家知识产权局提交的专利申请。

一种基于DDQN算法的配送车辆动态调度优化方法在说明书摘要公布了:本发明公开了一种基于DDQN算法的配送车辆动态调度优化方法,属于基于深度强化学习的生鲜配送车辆调度技术领域;本发明将生鲜配送动态车辆调度问题视为连续时间过程,基于SMDPSemi‑MarkovDecisionProcess框架进行建模,并采用DDQNDoubleDeepQ‑Learning算法来训练双Agent,在处理“新订单事件”和“车辆事件”时做出调度分配。该方法显著降低了分配空间的组合复杂性,在考虑多个分配限制因素的同时,表现出更好的平均分配时间。通过提高系统资源利用率和调度效率,解决了生鲜配送延迟导致生鲜产品时效性下降的问题。

本发明授权一种基于DDQN算法的配送车辆动态调度优化方法在权利要求书中公布了:1.一种基于DDQN算法的配送车辆动态调度优化方法,其特征在于,包括以下步骤:S1、将生鲜配送中的动态车辆调度问题视为基于SMDP框架的连续时间过程:根据生鲜配送订单随时间随机出现、连续分配之间时间间隔随机的特性,拟定基于事件的SMDP公式,并定义SMDP的基本构成:环境、状态、动作空间、奖励函数和环境动力学;在系统中,明确定义两个触发分配的重要事件:“新订单事件”和“车辆事件”,将原本的多对多分配调度问题简化为一对多分配调度问题;S2、利用离散事件模拟器进行模拟:使用Python配置离散事件模拟器;利用所述模拟器维护按时间顺序排列的订单列表,并使用特定的处理例程来处理“新订单事件”和“车辆事件”:在模拟过程中,用概率分布表示驾驶员拒绝的概率,并使用β密度函数对其进行建模,最后,Agent利用该概率执行伯努利试验来确定是否拒绝订单;S3、训练Agent:结合真实世界数据和模拟数据,运用DDQN算法来同时训练双Agent,使其针对“新订单事件”和“车辆事件”做出调度分配,具体包括以下步骤:S3-1、收集数据:模拟器利用真实数据中的出发地、目的地位置和到达时间,并使用概率分布进行数据模拟,将真实世界和模拟数据结合起来,用于训练Agent;S3-2、分类agent:由于在DVDP的SMDP公式中,分配发生在两种不同类型的事件中,因此分别对NewOrderAgent和VehicleAgent两种不同的代理进行训练;S3-3、采样转换:1)初始阶段,Agent了解环境中的行为后果,随机做出动作并收集一系列的经验转换;2)将步骤1)中所述经验转换存储在一个“经验缓冲区”的池中;3)Agent从“经验缓冲区”中随机选择一批经验转换组成批次,以保证训练所需的样本多样性、打破时间上的相关性并减少数据的非平稳性;S3-4、深度神经网络驱动:当“经验缓冲区”积累了一定数量的样本后,批次中的经验元组相互连接,表示特定上下文中车辆和订单之间的潜在分配;将所述经验元组输入执行梯度步骤,通过反向传播算法更新深度神经网络的参数,其中一个神经网络在每一步都执行梯度下降,而另一个神经网络在一定数量的步骤之后才进行参数更新,以控制网络参数同步;所述深度神经网络结合DDQN算法,使用两个函数qA和qB,每个q函数使用另一个q函数的值更新下一个状态,以驱动Agent更准确地估计当前状态和动作的Q值,以qA为例: 其中,s表示智能体所处的环境状态;a表示智能体在给定状态下选择的行动;s’表示在执行动作a后智能体进入的新状态;r表示智能体在执行动作后从环境中获得的即时奖励;γ=e-βτ为折扣因子,表示对未来奖励的重要性衰减率;α为学习率,表示在更新Q值时的学习速率,其决定了新的估计值在更新Q值时对旧的估计值的相对重要性,表示在状态s’下选择具有最大Q值的动作a;Agent根据估计的Q值选择具有最大Q值的动作;NewOrderAgent将新到达的订单分配给可用车辆;VehicleAgent将有空余容量的车辆服务于等待的订单。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽农业大学,其通讯地址为:230036 安徽省合肥市蜀山区长江西路130号安徽农业大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。