买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国石油大学(北京)
摘要:本申请提供一种叠加速度的确定方法、装置、设备及介质。该方法包括:根据共中心点道集,得到多个能量团;从能量团中获取第一坐标并输入至动作网络,得到动作,并根据动作得到下一状态和奖励值,并将状态、动作、奖励值和下一状态存储至经验池;从经验池中获取经验数据,并将经验数据输入至智能体的目标动作网络,得到下一动作集合,并将下一动作集合和下一状态集合输入至智能体的目标评价网络,得到第一回报值,将经验数据中的状态集合和动作集合输入至智能体的评价网络,得到第二回报值;根据第一回报值和第二回报值,更新评价网络、动作网络、目标评价网络和目标动作网络;在满足迭代停止条件时,得到共中心点道集对应的叠加速度。
主权项:1.一种叠加速度的确定方法,其特征在于,包括:根据共中心点道集,得到叠加速度谱,并根据所述叠加速度谱,得到多个能量团;其中,每个能量团对应一个智能体,能量团是智能体所在的探索环境;在任意一个轮次的迭代过程中,针对多个能量团中的每一个能量团,从所述能量团中获取第一坐标作为当前轮次的状态输入至所述智能体的动作网络,得到动作,并根据所述动作得到下一状态和奖励值,并将所述状态、所述动作、所述奖励值和所述下一状态存储至经验池;其中,所述经验池中存储的每个经验数据包括一次迭代过程中多个能量团对应的动作集合、状态集合、奖励值集合和下一状态集合;根据所述奖励值集合,得到平均奖励值;从所述经验池中获取当前轮次的经验数据,并将所述经验数据中的下一状态集合输入至所述智能体的目标动作网络,得到下一动作集合,并将所述下一动作集合和所述下一状态集合输入至所述智能体的目标评价网络,得到第一回报值,将所述经验数据中的状态集合和动作集合输入至所述智能体的评价网络,得到第二回报值;根据所述第一回报值和所述第二回报值,更新所述评价网络、所述动作网络、所述目标评价网络和所述目标动作网络;在满足迭代停止条件时,得到平均奖励值最大的轮次对应的最后一个状态集合,并根据所述状态集合,得到所述共中心点道集对应的叠加速度。
全文数据:
权利要求:
百度查询: 中国石油大学(北京) 一种叠加速度的确定方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。