首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的工艺路线多目标优化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天津大学

摘要:本发明涉及一种基于深度强化学习的工艺路线多目标优化方法,包括下列步骤:第一步,设定工序间的四种强制性优先关系,建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数,建立工艺路线优化模型;第二步,将工艺路线优化问题转化为马尔可夫决策过程,以模拟智能体Agent可实现的随机性策略与回报:将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程,即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定,整个工艺路线包含了工序的顺序安排及其选用的加工设备,由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数;第三步,基于Actor‑Critic结构的深度强化学习方法进行求解。

主权项:1.一种基于深度强化学习的工艺路线多目标优化方法,包括下列步骤:第一步,设定工序间的四种强制性优先关系,建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数,建立工艺路线优化模型;其中,所设定的工序间的四种强制性优先约束关系为:先粗后精型约束关系:即先安排粗加工类型的工序,后安排精加工类型的工序;基准优先型约束关系:在面向基准特征与其依赖特征的加工时,应优先加工基准特征;先面后孔型优先关系:在进行面特征及与其对应的孔特征加工时,为满足孔与平面的位置精度要求,应先加工面特征后加工孔特征;主次优先型约束关系:主次特征由零部件的应用功能决定,在设计阶段根据用户需求设计零件结构,结合实际功能特性可得到主次优先关系;第二步,将工艺路线优化问题转化为马尔可夫决策过程,以模拟智能体Agent可实现的随机性策略与回报,方法如下:将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程,即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定,整个工艺路线包含了工序的顺序安排及其选用的加工设备,由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数;在状态空间定义上,引入静态变量与动态变量,静态变量是在决策过程中不会发生变化的值,而动态变量在每个决策步骤之前都会更新,具体为:将每个工序下的可用机床和刀具资源以配对的形式视为一次组合,待加工工件的所有工序合计L类组合,静态变量包含了候选组合的序号IDx、候选组合的工序MEi、机床编号和刀具编号动态变量包括了当前状态st下剩余的工序比例当前状态st下工序MEi是否已经被选择和当前状态st下工序MEi的先行工序剩余比例一个工序可能存在若干种机床刀具组合的候选项,分别表示工序MEi的第k类可选机床和该机床下第m类可选刀具;动态变量表征了当前状态st下剩余的工序比例,初始状态为1,其更新规则为: 式中,mt表示处于状态st时已选择的工序数量,当mt等于工序总数n时,序列决策达到终止条件;动态变量表征了当前状态st下该工序是否已经被选择,其更新规则为: 动态变量表征了当前状态st下工序MEi的先行工序剩余比例,当MEi无先行工序时,其始终为0;当MEi有先行工序时,的更新规则为: 式中,Pi表示工序MEi的先行工序总数,表示处于状态st时Pi中已被选择的工序数量,初始状态为0或1,当为0时代表该时刻下MEi可被选择; 和的取值均在[0,1]内,能有效应对待加工工件不同的工序数量,让模型对数据有更好的感知效果;在动作空间定义上,动作at表示Agent在当前状态st下可以做出的行为,其与决策策略相关,在工艺路线优化问题中,动作集合As表示状态s下所有可选的序号IDx集合;在奖励函数定义上对Agent的奖励将基于工艺总成本、工艺总时间和工艺总碳排放量三类优化目标进行确定,当三类目标值越低时,应对Agent给予越大的奖励进行反馈;第三步,基于Actor-Critic结构的深度强化学习方法进行求解。

全文数据:

权利要求:

百度查询: 天津大学 一种基于深度强化学习的工艺路线多目标优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。