Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的云订单动态接受与调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明公开了一种基于深度强化学习的云订单动态接受与调度方法,按如下步骤:步骤一,接单智能体根据车间的信息反馈,以最大利润为目标制定订单接受策略;步骤二,当云订单接受后,排单智能体将当前时刻剩余工序和云订单以最小拖期时间和最小扰动为整合目标重调度;调度结束后将车间的生产能力反馈给接单智能体。本发明可对动态到达的云订单实现调度优化,能在正常生产自有订单的同时提高车间资源利用率,提升企业的利润。

主权项:1.基于深度强化学习的云订单动态接受与调度方法,其特征是按如下步骤:步骤一,接单智能体根据车间的信息反馈,以最大利润为目标制定订单接受策略;步骤二,当云订单接受后,排单智能体将当前时刻剩余工序和云订单以最小拖期时间和最小扰动为整合目标重调度;调度结束后将车间的生产能力反馈给接单智能体;步骤一中,利润的目标函数如下: 其中,pb、v、db、Fb、cb分别表示第b个云订单的价格、单位延期时间的惩罚因子、延期时间、固定生产成本,机器生产成本;pQ、dQ、FQ、cQ分别表示第Q个自有订单的价格、延期时间、固定生产成本、机器生产成本,其中,b=1,2,…g,Q=1,2,…h;车间调度中,所有订单延期累计时间最小目标函数为: 车间生产扰动最小的目标函数为新旧调度方案的工序加工时间差异累和: 式中,表示第z个订单的第w道工序新调度与旧调度方案的开始加工时间差值,表示第z个订单的第w道工序新调度方案与旧调度的结束加工时间差值;其中,z=1,2,…L,w=1,2,…u;使用马尔科夫决策过程GS,A,P,R,γ来描述云订单动态调度问题,其中包括状态空间S、动作空间A、状态转移概率P、奖励函数R、折扣因子γ;步骤一中,接单智能体的奖励函数接单智能体以利润最大化作为目标函数,而生产每个订单都会有对应的价格、固定成本、机器加工成本以及延期成本,接单智能体需要通过车间的状态判断接受云订单是否存在利润,奖励函数设计如下: 步骤二中,排单智能体的奖励函数接受订单后,排单智能体将新订单插入生产时,会对已有订单的生产安排造成影响,不仅需要考虑订单延期问题,还需要考虑新插入订单的扰动问题;因此,排单智能体以订单最小延期和订单插入最小扰动双目标整合作为目标函数; 上式中,每个动作的延期奖励计算方法为,当工件未完成时,以该工序的最迟开始时间作为标准计算延期时间,当该工件完成时,则以工件的交货期为准计算延期时间;式中,S是自有订单和云订单的累和总计订单数量,r1代表接单智能体在决策时刻tk-1转移至tk的奖励值;证明得到,最小化订单延期时间等于最大化奖励函数 上式中,tj表示第j个订单的延期时间,其中,j=1,2,…S;将云订单插入生产时,会造成机器设备、人员、物料的变动,因此在决策时,期望订单整体的安排与之前的生产的差异最小;整体的差异通过各工件的每道工序的开始时间和结束时间的差值计算得到,工序生产的时间差异作为回报反馈给排单智能体; 将单步奖励转化为整体目标函数: 新调度方案与旧调度方案的订单生产安排差异越小,车间扰动也就越小,得最小化订单插单生产扰动等于最大化奖励函数当有新订单进入,排单智能体进行新一次调度安排时,最终的回报将权衡整合奖励函数r1和r2;采用加权法对两个目标整合,需要对奖励函数先进行归一化,方法如下: 由于拖期奖励函数的最值和订单扰动函数的最值未知,所以设定为:拖期奖励函数值r1max=0,订单扰动函数值其中,C1,C2是较小的负数,且小于所有的奖励函数值;将两个目标转化为单目标优化问题: 上式中,we代表第e个目标的权重,r′e代表第e个目标值经过归一化处理后所得的值,其中,e=1,2。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 基于深度强化学习的云订单动态接受与调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。