首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DDQN的智能车间动态自适应调度方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东工业大学

摘要:本发明提出一种基于DDQN的智能车间动态自适应调度方法及系统,涉及车间作业调度,首先以采集的车间生产作业数据作为历史大数据,构建基于数据状态的马尔科夫状态过程,设置训练数据样本,结合DDQN算法,基于样本训练当前目标Q网络得到训练好的深度目标Q网络,最大程度地贴合离散车间生产作业的实际情况。构建实时状态与深度目标Q网络交互自适应调度匹配执行机制,根据当下的实时数据状态进行匹配推演,生成调度策略对下一步作业进行指导,可快速响应车间的动态变化,进行“一步一推理”的自适用动态调度,高效地匹配合适的调度策略动作,极大地节约了时间成本的同时提高了生产的效率。

主权项:1.一种基于DDQN的智能车间动态自适应调度方法,其特征在于,所述智能车间为搭建了物联网环境的离散制造车间,由工件加工工位、车间物流节点及工件缓存区的制造节点组成,所述方法包括以下步骤:S1.采集车间生产作业数据;S2.对车间生产作业数据进行预处理,然后构建制造节点的多维数据状态,按时间序列顺序形成制造节点的马尔科夫状态视图,完成数据状态建模;S3.随机获取状态建模后的数据,每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D,然后一次选取k条数据作为样本;S4.确定基于DDQN的当前目标Q网络,以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入,以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出,基于样本训练当前目标Q网络,得到训练好的深度目标Q网络;S5.确定制造节点的实时数据状态S',将实时数据状态S'作为训练好的深度目标Q网络的输入,得到基于当前实时数据状态S'所预估的可选调度策略动作A'以及实时数据状态S'采用调度策略动作A'进行调度作业所花费的时间T,并将时间T按照从小到大排序;S6.若时间T均不相等,将时间T最小时对应的调度策略动作A'选定为最优调度策略动作,作为下一步执行的调度动作;若存在多个相等的最小时间T,选取动作评估值Q最大的调度策略动作A'作为最优调度策略动作;S7.重复步骤S5~S6,动态更新调度策略,直至车间生产作业完成;步骤S1所述的采集的车间生产作业数据包括:车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态在内的“人、机、物、法、环”各种维度数据;步骤S2所述的采集的车间生产作业数据进行预处理的过程包括:清洗车间生产作业数据,处理车间生产作业数据中的错误值和缺失值,根据数据错误或缺失的情况,按行或按列删除;对于缺失值,根据在车间制造实际情况下的数据自身属性,采用均值或中位数或众数作为中心度量值来填补缺失数据;把有量纲的数据映射到无量纲的离散数据空间,即把车间生产作业过程中所得到的数据进行离散化处理;在不丢失所需要信息的前提下,把采集到的数据进行数字化、离散化、去单位化描述,构建无量纲的数据;步骤S2中所述的构建制造节点的多维数据状态,按时间序列顺序链接形成制造节点的马尔科夫状态视图的过程包括:采集的车间生产作业数据为多源异构数据,将采集的车间生产作业数据根据车间作业生产逻辑进行链接集成,通过以下方式的状态集合:单个制造节点状态维度1状态,维度2状态,维度3状态,......,维度i状态对车间中制造节点的多维数据状态进行表达,构建出每个制造节点的多维数据状态,每一个维度状态包括或部分包括了人力维度、物料维度、生产设备维度,工艺维度和环境维度的采集数据;其中,人力维度包括当前制造节点的操作工人的技能熟练度、监控人员的管理水平,物料维度包括订单工件编号、工件数目、及类型,生产设备维度包括生产设备的工作状态、类型、维护时间和忙闲情况;工艺维度包括加工精度、作业规范及产品标准,环境维度包括车间的生成上下文及自然环境因素;所有制造节点链接起来形成整个车间智能制造系统,将各个制造节点的多维数据状态映射到车间生产的所有制造节点中,从时间上截取车间制造过程中某一个瞬间的俯视全景数据视图,将各个制造节点基于某个瞬间的作业数据映射,把所有车间制造节点和各种“人、机、物、法、环”约束维度一一映射,对每一个制造节点进行编号,通过以下方式的状态集合:智能制造系统状态制造节点1的状态,制造节点2的状态,......,制造节点j的状态把包含所有制造节点整个智能制造系统的数据状态表示出来;将整个智能制造系统的数据状态视图根据车间生产作业过程的各个瞬间逐个表达出来,按照时间序列顺序连接,通过以下方式的时间序列顺序:智能制造系统马尔科夫状态过程系统的状态T1,系统的状态T2,......,系统的状态Tk将智能制造系统制造节点的各个维度状态数据信息串联起来,形成符合车间生产顺序的数据状态,得到完整车间生产过程中制造物联网映射的马尔科夫状态视图及其状态演变;离散制造车间的制造节点的当前数据状态S包括制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号;离散制造车间的制造节点的各个数据状态S按时间顺序串联成为完整的智能制造系统马尔科夫状态过程;调度策略动作A表达为JOBID,MNID,其中,JOBID表示某个订单编号的作业,MNID是某一个编号的节点,表达当前某一个作业JOBID在调度时选择在节点MNID上进行加工、流转或等待;步骤S4所述的基于DDQN的当前目标Q网络包括负责动作获取的现实网络Current_Net和负责动作价值计算的目标网络Target_Net,现实网络Current_Net和目标网络Target_Net结构相同;以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入,以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出,各个调度策略动作A的动作评估值Q组成Q值表,某一调度策略动作A的动作评估值Q越大,调度策略动作的价值越大,合理性越高;当前目标Q网络的训练过程为:将样本i,i∈1,k中制造节点的下一个数据状态S+1分别输入现实网络Current_Net和目标网络Target_Net,得到Cur_Q值表和Tar_Q值表;获取样本i,i∈1,k在Cur_Q值表中动作评估值Q最大的索引动作,再利用该索引动作检索Tar_Q值表,得到对应调度策略动作的Tar_Q值;创建存储k条样本Q值数据的列表Q_batch,每条样本按照:Qi=样本i的奖励Ri+GAMMA*样本i对应的Tar_Q值分别计算对应的Q值并载入列表Q_batch中,用于损失函数计算;将k条样本中的当前数据状态S输入现实网络Current_Net,得到当前状态S,A的现实Q值,同时将k条样本所得k个现实Q值存入Current_Net_Q列表,用于损失函数计算;设损失函数Cost为:Cost=Q_batch-Current_Net_Q利用优化器对损失函数进行优化计算,直至收敛;训练过程中,更新当前目标Q网络的频率为f,将现实网络Current_Net的参数每训练f步,更新一次目标网络Target_Net的参数,得到训练好的深度目标Q网络。

全文数据:

权利要求:

百度查询: 广东工业大学 一种基于DDQN的智能车间动态自适应调度方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。