Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东华大学张洁获国家专利权

东华大学张洁获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东华大学申请的专利一种基于嵌入式强化学习的调度与维护优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118735200B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410869849.6,技术领域涉及:G06Q10/0631;该发明授权一种基于嵌入式强化学习的调度与维护优化方法及系统是由张洁;王明;张朋;金孟宇;李洪森设计研发完成,并于2024-07-01向国家知识产权局提交的专利申请。

一种基于嵌入式强化学习的调度与维护优化方法及系统在说明书摘要公布了:本发明涉及一种基于嵌入式强化学习的调度与维护优化方法及系统,方法包括以下步骤:采集生产运行过程与机器维护历史数据;构建调度与维护智能体和特征选择智能体;构建调度与维护Markov决策过程;构建特征选择Markov决策过程;特征选择智能体与特征选择Markov决策过程交互并学习最优状态特征选择策略;调度与维护智能体与调度与维护Markov决策过程交互并学习最优调度与维护优化策略;部署并执行部署并执行特征选择智能体和调度与维护智能体进行调度与维护优化。系统包括调度与维护控制器、调度与维护智能体、特征选择智能体。解决了生产中订单动态到达环境下难以精准表征动态环境导致的性能不足的问题,实现调度与维护的联合优化并提升设备可靠度和降低生产成本。

本发明授权一种基于嵌入式强化学习的调度与维护优化方法及系统在权利要求书中公布了:1.一种基于嵌入式强化学习的调度与维护优化方法,其特征在于,包括以下步骤:采集生产运行过程与机器维护历史数据;构建调度与维护智能体和特征选择智能体;构建调度与维护Markov决策过程;构建特征选择Markov决策过程;特征选择智能体与特征选择Markov决策过程交互并学习最优状态特征选择策略;调度与维护智能体与调度与维护Markov决策过程交互并学习最优调度与维护优化策略;部署并执行部署并执行特征选择智能体和调度与维护智能体进行调度与维护优化;具体如下:步骤S1:采集生产运行过程与机器维护历史数据;其中,生产运行过程历史数据,包括但不限于生产订单、调度方案、生产运行历史数据、生产任务种类、批量、到达时间、任务分配的工位、生产顺序、开始加工时间、结束加工时间;机器维护历史数据,包括但不限于设备役龄、生产批次、生产时间、维护时间、维护时间间隔、设备运行状态历史运行数据;步骤S2:构建调度与维护智能体和特征选择智能体;其中,调度与维护智能体包含策略网络和目标网络,策略网络和目标网络由深度神经网络构建;策略网络用来选择最合适的调度或维护活动,目标网络用来对策略网络进行参数更新;特征选择智能体,包含actor网络和critic网络;actor网络和critic网络是通过深度神经网络构建;actor网络用来选择关键特征作为调度与维护智能体的输入,critic网络用来对actor网络进行参数更新;步骤S3:构建调度与维护Markov决策过程;其中,调度与维护Markov决策过程,是将调度与维护优化问题转化为序贯决策问题,即Markov决策过程,包括调度与维护的状态空间、动作空间和奖励函数的定义;定义调度与维护的状态空间:是触发特征选择智能体对调度与维护Markov决策过程进行监测后输出的调度与维护Markov决策过程的关键特征;定义调度与维护的动作空间:包含选择当前待加工任务或机器维护两种动作,调度与维护动作空间如下所示:A2=[1,2,…,n,n+1]其中,A2表示调度与维护动作空间,[1,2,…,n]表示当前的待加工任务,n表示待加工任务的数量,n+1表示机器维护;定义调度与维护奖励函数:是对调度与维护智能体从调度与维护动作空间A2中选择的任意一个动作进行评价,调度与维护奖励函数由切换成本、维护成本、维修成本和机器的可靠度所构成,调度与维护智能体的总奖励如下所示: 式中,R2表示调度与维护智能体的总奖励,m为并行机的数量,T为调度与维护的总周期,rjt表示t时刻机器j的可靠度,Ccsc、Cssc、Crc、Cmc分别表示同批次中生产中断成本、不同规格产品切换成本、机器修复成本、机器维护成本;其中,所有机器的可靠度通过威布尔分布进行拟合,可靠度的rjt的计算公式如下: 式中,Tas为机器的役龄,β为威布尔分布的形状参数,η为威布尔分布的尺寸参数;生产中断成本、不同规格产品切换成本、设备修复成本、设备维护成本通过生产中断时间、单位时间物料损耗和单位物料成本进行计算,计算公式依次如下;Ccsc=Tcst*Ui*CiCssc=Tsst*Ui*CiCrc=Trt*Ui*CiCmc=Tmt*Ui*Ci式中,Tcst、Tsst、Trt、Tmt依次表示相同批次中两个子任务间的准备时间、产品切换时间、设备修复时间、设备维护时间,Ui表示产品i的单位时间产量,Ci表示产品i的物料单位成本;由于,总奖励R2是由调度与维护智能体在周期T中所有的即时奖励r2,t计算得到,如下式所示:R2=r2,1+γ*r2,2+γ2*r2,3+…+γt-1*r2,t+…其中,r2,1、r2,2、r2,3、…依次表示即时奖励r2,t在时刻t=1、t=2、t=3、…时的即时奖励,γ为折扣奖励,当γ=1时,R2=r2,1+r2,2+r2,3+…+r2,t+…;因此,调度与维护智能体的即时奖励分为以下几种情况;在决策时刻t1时,调度与维护智能体选择维护动作,在提升可靠度的同时会增加成本,此时奖励如下式所示: 在决策时刻t2时,调度与维护智能体选择继续生产当前批次并在后续生产过程中机器不发生故障,仅提升准备成本并会降低可靠度,此时奖励如下式所示: 在决策时刻t3时,调度与维护智能体选择继续生产当前批次并在后续生产过程中机器发生故障,会提升准备成本和维修成本并会降低可靠度,此时奖励如下式所示: 在决策时刻t4时,调度与维护智能体选择更换批次会造成转换成本,但是会更换机器的组件使得可靠度恢复如初,此时奖励如下式所示: 步骤S4:构建特征选择Markov决策过程;定义特征选择状态空间,包含所有生产运行过程与机器维护数据;定义特征选择动作空间,包括对所有生产运行过程与机器维护数据进行选择和剔除两个动作;定义特征选择奖励函数,是通过将选择后的生产运行过程与机器维护数据所包含的关键特征作为调度与维护智能体的输入并训练调度与维护智能体后,获得的调度与维护智能体的调度与维护优化性能作为特征选择智能体的总奖励;R1=R2,t其中,R1表示特征选择智能体的总奖励,R2,t表示在t时刻由特征选择智能体输出的关键特征训练的调度与维护智能体的总奖励;步骤S5:特征选择智能体与特征选择Markov决策过程交互并学习最优状态特征选择策略;交互,是特征选择智能体对当前生产运行过程与机器维护数据进行观测s1,t、选择并执行动作a1,t、观测执行动作后改变的生产运行过程与机器维护数据s1,t+1,选择并执行所有动作后获得的关键特征训练调度与维护智能体以获得总奖励R1;最优的特征选择策略,是特征选择智能体与特征选择Markov决策过程进行交互并通过自模仿学习引导的Actor-Critic算法更新特征选择智能体中深度神经网络的参数;自模仿学习引导的Actor-Critic算法的特征选择智能体参数更新公式依次如下: 式中,θi、θi+1分别为更新前后的特征选择智能体actor网络的参数,表示actor网络的目标函数JQθi的梯度,ηQ为actor网络的学习率,其中, 式中,JQθ表示actor网络参数为θ时actor网络的目标函数,Qθs1,t,a1,t表示actor网络在参数为θ和状态为s1,t时选择动作a1,t时的预测值,y为目标值,分别表示使用较优、差轨迹所包含的交互数据所计算的均方误差的期望值; 式中,r为特征选择智能体actor网络在参数为θ和状态为s1,t时选择动作a1,t时的奖励值,α为学习率,表示特征选择智能体actor网络在状态为s1,t+1时根据自身策略选择的概率最大的动作a1,t+1; 式中,分别为更新前后的特征选择智能体critic网络的参数,表示critic网络的目标函数的梯度,ηπ为critic网络的学习率,其中, 式中,表示critic网络参数为θ时critic网络的目标函数,表示特征选择智能体critic网络在状态为s1,t时根据自身策略选择的概率最大的动作a1,t;步骤S6:调度与维护智能体与调度与维护Markov决策过程交互并学习最优调度与维护优化策略;交互是调度与维护智能体通过根据特征选择智能体输出的关键特征对当前生产运行过程与机器维护数据进行观测得到状态s2,t、通过自身策略结合自适应动作选择机制选择并执行动作a2,t、获得由调度与维护Markov决策过程反馈的即时奖励r2,t、观测执行动作后转移的状态数据s2,t+1;最优调度与维护策略,是调度与维护智能体和调度与维护Markov决策过程进行交互以累积经验数据并通过DoubleDQN算法训练并更新的神经网络参数;通过判断当前可选动作确定可选动作集合以生成动作掩码矩阵,随后调度与维护智能体根据动作掩码矩阵结合ε-贪心策略进行可选动作的选择;ε-贪心策略如下式所示: 式中,random表示随机选择一个可选动作,表示选择Q值最大的动作,R0,1表示在0-1之间随机取值,ε为贪心系数,θ为调度与维护智能体中策略网络的参数;调度与维护智能体的误差Loss计算公式如下:Loss=||yi-Qs2,t,a2,t;ω||2 式中,ω为调度与维护智能体中策略网络的参数,为调度与维护智能体中评估网络的参数,Qs2,t,a2,t;ω为智能体在状态s2,t下根据自身策略参数ω选择动作a2,t的Q值,参数ω的误差通过梯度下降来计算,计算公式如下: 式中,表示调度与维护智能体中策略网络在参数ω下误差Loss的梯度;步骤S7:部署并执行特征选择智能体和调度与维护智能体进行调度与维护优化;将训练好的特征选择智能体和调度与维护智能体部署至生产车间中,通过对生产和机器运行过程数据的实时监测以自动触发特征选择智能体选择动态环境的关键状态特征并利用调度与维护智能体输出当前状态下最优的调度或维护活动。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东华大学,其通讯地址为:200051 上海市长宁区延安西路1882号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。