首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的考虑维护决策的单机调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江工业大学

摘要:本发明公开了一种基于深度强化学习的考虑维护决策的单机调度方法,包括:1)初始化生成待加工工件信息,包括工件数量,每个工件的待加工时间及交货期;2)对考虑维护决策的单机调度问题建立约束和假设,建立考虑维护决策的单机调度问题的数学模型;3)根据数学模型建立单机调度问题的调度仿真环境;4)搭建神经网络及强化学习部分形成深度强化学习训练框架,通过深度强化学习方法对调度仿真环境进行训练得到调度结果和维护决策方案。本发明使用深度强化学习的方法来学习调度和维护决策策略的智能选择,设计该问题的仿真环境及状态空间,动作空间和奖励值,通过训练得到的调度方案比传统的基于规则的方法更优,因此可作为实际生产现场的参考。

主权项:1.一种基于深度强化学习的考虑维护决策的单机调度方法,其特征在于,包括如下步骤:1初始化生成待加工工件信息,包括工件数量,每个工件的待加工时间以及交货期;2对考虑维护决策的单机调度问题建立约束和假设,建立考虑维护决策的单机调度问题的数学模型;3根据数学模型建立单机调度问题的调度仿真环境;4搭建神经网络及强化学习部分形成深度强化学习训练框架,通过深度强化学习方法对调度仿真环境进行训练得到调度结果和维护决策方案;步骤2中对考虑维护决策的单机调度问题建立约束包括:a机器同时只能加工一个工件,且同一个工件只需被加工一次,一旦工件开始加工就必须加工至完成,不可中断;b当前工件的实际开始加工时间不得早于上一个工件的实际完工时间与维护花费时间之和;步骤2中对考虑维护决策的单机调度问题建立假设,假设机器状态为三阶段状态,分别为初始机器状态值、机器正常状态值以及劣化机器状态值,初始机器状态值为最大值,机器工作之后为正常状态,当机器剩余状态值达到恶化效应时间点后,机器由于长时间持续运作导致状态劣化,使得后续工件加工时间相应变长,机器进入劣化状态;而当机器剩余状态值达到失效时间点后,认为此状态下机器加工出来的工件均是不合格的,在工作时避免机器进入失效状态;通过维护决策可以增加机器状态值,使得机器状态回复,完全维护决策可以将机器状态值回复完全至最大值,不完全维护决策可以将机器状态值回复至恶化效应时间点之前的正常状态,完全维护决策所花时间及成本均高于不完全维护决策;并进一步假设忽略机器的开关机时间以及工件的拆卸装夹时间,工件在0时刻均已到达就位;步骤2中建立考虑维护决策的单机调度问题的数学模型为构建目标函数,目标函数为运算最小化总成本,包含工件拖期所带来的效益损耗成本、机器运行损耗成本以及机器维护成本;建立考虑维护决策的单机调度问题的数学模型,包括以下步骤:第一、对问题进行描述和相关数学符号进行说明:xij:表示在加工作业序列中,第i项加工作业是否为工件j,若是为1,否则为0;n:整个调度序列的工件数量;i:加工作业的调度次序;j:表示加工作业的下标编号;Pti:第i个工件的预计加工所需时间;Pai:第i个工件的实际加工时间;Dti:第i个工件的交货期;Sti:第i个工件的实际开始加工时间;Cti:第i个工件的实际完工时间;Di:第i个工件的拖期;α:拖期的惩罚成本因子;β:机器运行时间成本因子;TM:初始机器状态值;TPi:加工第i个工件后剩余机器状态值;TDi:加工第i个工件后考虑维护决策后剩余机器状态值;tm1:机器完全维护所花费时间;tm2:机器不完全维护所花费时间;cm1:机器完全维护的成本;cm2:机器不完全维护的成本;mi:表示是否在加工第i个工件前对机器进行完全维护或者不完全维护;h1:恶化效应时间点;h2:失效效应时间点;σ:恶化系数;N1:完全维修次数;N2:不完全维修次数;第二、进行建模:构建运算最小化总成本的目标函数为: 决策变量1:决策变量2:决策变量3:xij=0,1,i,j=1,2,…,n决策变量1表示调度序列上每个位置只能加工一个工件,决策变量2表示工件集中每个工件只能分配在调度序列上的一个位置,决策变量3表示xij只能取0或者1;由此上述三个决策变量合起来表示在调度序列中每个位置只能完成一项加工作业,且每项加工作业只能分配在一个位置上进行加工;机器的实际加工时间为:工件的实际完成时间为:Cti=Sti+Pai工件的拖期为:机器加工工件后的剩余机器状态值为:机器进行维护决策后的剩余机器状态值为:是否进行维护决策表示为:其中,NO表示不进行维护决策,PM表示进行一次完美维护决策,即将机器状态值回复到初始机器状态值;NPM表示进行一次不完美维护决策,即将机器状态值回复到恶化效应点时的机器状态值;工件的实际开始加工时间不得早于于上一个工件的实际完工时间与维护花费时间之和表示为:

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于深度强化学习的考虑维护决策的单机调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术