首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的柔性车间作业动态调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:河南科技大学

摘要:本发明公开了一种基于深度强化学习的柔性车间作业动态调度方法,属于车间作业动态调度领域,该方法包括以作业总拖期时间最小化、作业最大完成时间最小化和平均机器利用率最大化为优化目标,得到多目标模型;利用析取图模型对动态作业车间调度问题进行抽象,得到调度状态;根据调度状态和多目标模型,以优化目标为高层智能体,以作业和机器为低层智能体,利用马尔可夫决策过程,得到作业调度模型;获取新作业集合,并根据新作业集合,利用作业调度模型,得到调度计划表,完成柔性车间作业动态调度。本发明解决了现有技术中依赖调度规则而缺乏泛化性的问题。

主权项:1.一种基于深度强化学习的柔性车间作业动态调度方法,其特征在于,包括以下步骤:S1、以作业总拖期时间最小化、作业最大完成时间最小化和平均机器利用率最大化为优化目标,得到多目标模型;所述步骤S1中多目标模型的表达式为: 其中,为多目标模型;为最小化函数;为作业总拖期时间;为作业编号;为作业数量;为最大化函数;为第个作业完成所有操作的时间;为第个作业的总操作数;为第个作业的作业超期时间;为第个作业完成所有操作的最大完成时间;为平均机器利用率;为机器数量;为机器编号;为第个作业的操作编号;为第个作业的第个操作在第个机器的加工时间;为第个作业的第个操作是否可以在第个机器进行的标识符,如果可以,为1,否则,为0;为环境当前时刻;S2、利用析取图模型对动态作业车间调度问题进行抽象,得到调度状态;所述步骤S2中调度状态的表达式为: 其中,为调度状态;为操作节点;为机器节点;为有向弧;为无向弧;为优化目标节点;为第个作业的第个操作;为作业编号;为第个作业的操作编号;为处理时间为零的虚拟开始节点;为结束节点;S3、根据调度状态和多目标模型,以优化目标为高层智能体,以作业和机器为低层智能体,利用马尔可夫决策过程,得到作业调度模型;所述步骤S3具体为:S301、获取实例数据;S302、根据实例数据、调度状态和多目标模型,以优化目标为高层智能体,以作业和机器为低层智能体,利用马尔可夫决策过程对高层智能体和低层智能体进行训练,得到作业调度模型;所述步骤S302具体为:S3021、对实例数据进行取样,得到取样数据;S3022、以优化目标为高层智能体,以作业和机器为低层智能体;S3023、根据高层智能体和低层智能体,基于调度状态和多目标模型进行目标选择,得到待优化目标;S3024、利用调度状态,进行操作和机器对选择,得到操作机器对;S3025、根据操作机器对,利用局部搜索法,更新操作机器对中操作的开始时间和结束时间;S3026、根据待优化目标、操作机器对和操作机器对中操作的开始时间和结束时间,分别更新高层智能体的状态和低层智能体的状态;S3027、根据待优化目标,计算奖励;S3028、判断取样数据中所有需要进行加工的操作是否都已完成调度,并被安排到相应的机器上,若是,直接进入步骤S3029,否则,返回步骤S3023;S3029、根据奖励、高层智能体的状态和低层智能体的状态,采用近端策略优化算法,更新高层智能体的网络参数和低层智能体的网络参数;所述近端策略优化算法中策略网络的损失函数和评论家网络的损失函数的表达式分别为: 其中,为策略网络的损失函数;为最小化函数;为概率比;为时刻的优势函数;为时刻;为裁剪函数;为裁剪参数;为评论家网络的损失函数;为奖励;为评论家网络的输出函数;为智能体的新状态;为智能体时刻的状态;为新策略;为智能体时刻的动作;为新策略对应的智能体网络参数;为旧策略;为旧策略对应的智能体网络参数;为时刻的折扣因子;为时刻的奖励;为所有时间步;为时刻;所述智能体可为高层智能体或低层智能体;S30210、判断第一公式是否成立,若是,对高层智能体和低层智能体进行验证,得到策略验证结果,并进入步骤S30211,否则,直接进入步骤S30211;所述第一公式的表达式为: 其中,为迭代次数;为取余;为验证阈值;S30211、判断第二公式是否成立,若是,返回步骤S3021,否则,直接进入步骤S30212;所述第二公式的表达式为: 其中,为取样阈值;S30212、判断第一等式是否成立,若是,直接进入步骤S30213,否则,返回步骤S3022;所述第一等式的表达式为: 其中,为最大迭代阈值;S30213、设置观察区间,并判断策略验证结果是否在观察区间内收敛,若是,结束训练,得到作业调度模型,否则,调整高层智能体的超参数和低层智能体的超参数,并返回步骤S3022;S4、获取新作业集合,并根据新作业集合,利用作业调度模型,得到调度计划表,完成柔性车间作业动态调度。

全文数据:

权利要求:

百度查询: 河南科技大学 一种基于深度强化学习的柔性车间作业动态调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。