首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

粒子群优化算法模型的训练方法、粒子群优化方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院半导体研究所

摘要:本公开提供了一种粒子群优化算法模型的训练方法、粒子群优化方法及装置。该方法包括:根据由第一电子设备生成的粒子训练种群确定适应度以及与适应度对应的初始最优位置,在进行第t次迭代训练的过程中,根据动作网络和第t观测状态,确定粒子训练种群的第t选择动作,确定粒子训练种群的第t奖励回报和第t+1观测状态,将第t观测状态、第t选择动作、第t奖励回报和第t+1观测状态确定为与第t次迭代训练对应的一个状态转移信息并存储于缓存中,根据从缓存中获取的一个状态转移信息和价值网络的损失函数,计算第t损失结果,根据第t损失结果和状态转移信息训练价值网络和动作网络,进而得到粒子群优化算法模型。

主权项:1.一种由第一电子设备执行的粒子群优化算法模型的训练方法,包括:根据由所述第一电子设备生成的粒子训练种群确定适应度以及与所述适应度对应的初始最优位置,所述适应度用于评价所述粒子训练种群的解的品质,所述初始最优位置表征当前适应度下所述粒子训练种群位置坐标;在进行第t次迭代训练的过程中,根据动作网络和第t观测状态,确定所述粒子训练种群的第t选择动作,其中,所述第t观测状态是根据在进行所述第t次迭代训练后的已迭代次数和最大迭代次数得到的;根据所述粒子训练种群、所述初始最优位置以及所述第t选择动作确定所述粒子训练种群的第t奖励回报和第t+1观测状态;将所述第t观测状态、所述第t选择动作、所述第t奖励回报和所述第t+1观测状态确定为与所述第t次迭代训练对应的一个状态转移信息并存储于缓存中;根据从所述缓存中获取的一个状态转移信息和价值网络的损失函数,计算第t损失结果;根据所述第t损失结果调整所述价值网络的网络参数,生成经初始训练的初始价值网络;根据所述获取的一个状态转移信息中的选择动作和所述初始价值网络,训练所述动作网络,生成经初始训练的初始动作网络;在所述已迭代次数小于或等于所述最大迭代次数的情况下,迭代地根据所述第t+1观测状态确定第t+1选择动作,以调整所述初始价值网络的网络参数和训练所述初始动作网络;在所述已迭代次数大于所述最大迭代次数的情况下,根据经过网络参数调整的所述初始价值网络和所述初始动作网络,生成所述粒子群优化算法模型;其中,所述根据动作网络和第t观测状态,确定所述粒子训练种群的第t选择动作,包括:将所述第t观测状态和所述动作网络的权重输入所述动作网络,输出处理结果;根据所述处理结果和探索噪声,得到所述第t选择动作;其中,所述第t选择动作的计算如下所示: 其中,表征所述动作网络的权重,表征观测状态下的动作网络输出的处理结果;表征探索噪声,探索噪声为均值为第一预设值、方差为第二预设值的系列随机数。

全文数据:

权利要求:

百度查询: 中国科学院半导体研究所 粒子群优化算法模型的训练方法、粒子群优化方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。