一种基于深度强化学习的工艺路线多目标优化方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：天津大学

摘要：本发明涉及一种基于深度强化学习的工艺路线多目标优化方法，包括下列步骤：第一步，设定工序间的四种强制性优先关系，建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数，建立工艺路线优化模型；第二步，将工艺路线优化问题转化为马尔可夫决策过程，以模拟智能体Agent可实现的随机性策略与回报：将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程，即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定，整个工艺路线包含了工序的顺序安排及其选用的加工设备，由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数；第三步，基于Actor‑Critic结构的深度强化学习方法进行求解。

主权项：1.一种基于深度强化学习的工艺路线多目标优化方法，包括下列步骤：第一步，设定工序间的四种强制性优先关系，建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数，建立工艺路线优化模型；其中，所设定的工序间的四种强制性优先约束关系为：先粗后精型约束关系：即先安排粗加工类型的工序，后安排精加工类型的工序；基准优先型约束关系：在面向基准特征与其依赖特征的加工时，应优先加工基准特征；先面后孔型优先关系：在进行面特征及与其对应的孔特征加工时，为满足孔与平面的位置精度要求，应先加工面特征后加工孔特征；主次优先型约束关系：主次特征由零部件的应用功能决定，在设计阶段根据用户需求设计零件结构，结合实际功能特性可得到主次优先关系；第二步，将工艺路线优化问题转化为马尔可夫决策过程，以模拟智能体Agent可实现的随机性策略与回报，方法如下：将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程，即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定，整个工艺路线包含了工序的顺序安排及其选用的加工设备，由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数；在状态空间定义上，引入静态变量与动态变量，静态变量是在决策过程中不会发生变化的值，而动态变量在每个决策步骤之前都会更新，具体为：将每个工序下的可用机床和刀具资源以配对的形式视为一次组合，待加工工件的所有工序合计L类组合，静态变量包含了候选组合的序号IDx、候选组合的工序MEi、机床编号和刀具编号动态变量包括了当前状态st下剩余的工序比例当前状态st下工序MEi是否已经被选择和当前状态st下工序MEi的先行工序剩余比例一个工序可能存在若干种机床刀具组合的候选项，分别表示工序MEi的第k类可选机床和该机床下第m类可选刀具；动态变量表征了当前状态st下剩余的工序比例，初始状态为1，其更新规则为：式中，mt表示处于状态st时已选择的工序数量，当mt等于工序总数n时，序列决策达到终止条件；动态变量表征了当前状态st下该工序是否已经被选择，其更新规则为：动态变量表征了当前状态st下工序MEi的先行工序剩余比例，当MEi无先行工序时，其始终为0；当MEi有先行工序时，的更新规则为：式中，Pi表示工序MEi的先行工序总数，表示处于状态st时Pi中已被选择的工序数量，初始状态为0或1，当为0时代表该时刻下MEi可被选择；和的取值均在[0,1]内，能有效应对待加工工件不同的工序数量，让模型对数据有更好的感知效果；在动作空间定义上，动作at表示Agent在当前状态st下可以做出的行为，其与决策策略相关，在工艺路线优化问题中，动作集合As表示状态s下所有可选的序号IDx集合；在奖励函数定义上对Agent的奖励将基于工艺总成本、工艺总时间和工艺总碳排放量三类优化目标进行确定，当三类目标值越低时，应对Agent给予越大的奖励进行反馈；第三步，基于Actor-Critic结构的深度强化学习方法进行求解。

全文数据：

权利要求：

百度查询：天津大学一种基于深度强化学习的工艺路线多目标优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于多源数据的换电柜电池智能回收管理方法及系统

下一篇：一种建筑工程结构缝隙灌浆装置

相关技术

一种基于多源数据的换电柜电池智能回收管理方法及系统

一种建筑工程结构缝隙灌浆装置

一种基于非正交多址技术的近远场鲁棒安全通感融合方法

一种铜光催化未活化卤代烃胺化制备氮烷基化化合物的方法

一种高安全性的并机并网的储能设备

一种公路深层病害双组分高聚物抽拔注浆加固装置及方法

一种分布式光伏系统并网控制方法及系统

一种覆铜板加工用表面整平装置

一种带有光路定向机构的车载顶灯

站隧合建宽大基坑桩撑一体化支护结构

半固态电解质膜及其制备方法、二次电池

基于私有传输协议的文件传输方法、装置和存储介质

路线相关技术

运行路线配置方法、装置、设备、介质和产品_北京京东远升科技有限公司_202410714624.3

一种基于深度强化学习的工艺路线多目标优化方法_天津大学_202210582122.0

一种导航路线确定方法、系统、电子设备及存储介质_北京嘀嘀无限科技发展有限公司_202110925834.3

一种电路线缆的转角塔定位结构_江苏固力电气科技有限公司_202323581373.6

一种基于数据驱动和智能优化的动态路线排程方法_北京赢销通软件技术有限公司_202410559304.5

使用分段路线优化控制交通工具能耗的系统和方法_德尔福技术知识产权有限公司_202380019733.7

路线规划和订单推荐的方法、装置、电子设备及存储介质_北京三快在线科技有限公司_202010779016.2

路线推荐方法、装置、设备、存储介质及处理器_珠海格力电器股份有限公司_202111071166.9

路线偏航识别方法、装置、计算机可读存储介质及设备_深圳依时货拉拉科技有限公司_202410033990.2

通过设备路线和地点的网络控制来满足严格QoS要求_艾普拉控股有限公司_202080015654.5

工艺相关技术

搬运机构、工艺腔室和工艺设备_深圳市新凯来工业机器有限公司_202410986176.2

集成电路工艺装置_日荣半导体(上海)有限公司_202420037581.5

半导体工艺设备_北京北方华创微电子装备有限公司_202310310093.7

石英板生产工艺_泉州艺峰股份有限公司_202410870647.3

载板焊锡制备工艺_淄博芯材集成电路有限责任公司_202411179104.3

泡沫混凝土的制备工艺_宁波大学_202410761146.1

磨矿生产过程工艺数据序列关联分析方法及工艺优化方法_上海应用技术大学_202210506210.2

一种铝车轮模具冷却工艺与加压工艺智能控制方法_中信戴卡股份有限公司_202210335915.2

基于复合材料技术钢管先进生产工艺系统及生产工艺方法_江苏承中和智能制造有限公司_202011297653.2

一种用于碳钢工艺管道连接的焊接工艺_湖南中科管业有限公司_202410880556.8

目标相关技术

具有目标照度传感器的目标点瞄准器_西格绍尔公司_202180012444.5

目标检测方法、设备以及存储介质_浙江华创视讯科技有限公司_202410564818.X

目标检测方法、车辆及存储介质_比亚迪股份有限公司_202310326277.2

一种目标识别方法、目标识别装置以及计算机存储介质_浙江大华技术股份有限公司_202411200809.9

无源域适应目标检测方法及装置_中国科学院自动化研究所_202311332829.7

目标智能设备识别方法及装置_北京卡路里信息技术有限公司_202310294954.7

面向目标检测的算法动态选择方法及装置_白杨未来(北京)科技有限公司_202410695086.8

基于边界框回归的弱监督目标检测方法_西安电子科技大学_202210398499.0

基于轮廓的空间目标位姿跟踪方法_中国人民解放军国防科技大学_202411156526.9

基于可穿戴设备的健康目标动态监测_安徽华米信息科技有限公司_202410724399.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的工艺路线多目标优化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务