买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供一种面向智能体控制的可行约束策略优化方法及装置,涉及人工智能技术领域,该方法包括:基于FCPO算法,结合对智能体进行移动控制的约束条件信息,输出对智能体进行移动控制的最优约束策略,进而根据最优约束策略对智能体进行移动控制。本发明通过FCPO算法实现了对智能体的安全速度控制和安全导航控制,不仅在满足约束条件的同时取得了更优异的策略收益,而且提高了输出最优约束策略的计算效率,扩大了最优约束策略的适用范围,进而提高了对智能体移动控制的安全性、稳定性以及高效性。
主权项:1.一种面向智能体控制的可行约束策略优化方法,其特征在于,包括:获取对智能体进行移动控制的约束条件信息;将所述约束条件信息输入FCPO模型,得到所述FCPO模型输出的对智能体进行移动控制的控制信息;其中,所述FCPO模型用于根据所述约束条件信息确定最优约束策略,并基于所述最优约束策略输出对智能体进行移动控制的控制信息;所述FCPO模型是基于固定的随机种子训练得到的;所述根据所述约束条件信息确定最优约束策略,包括以下步骤:根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数;基于所述奖励函数和代价函数,通过约束策略迭代算法建立第一约束策略;通过PPO算法,对所述第一约束策略进行优化,建立第二约束策略;其中,所述第二约束策略与所述第一约束策略之间的KL散度被定义为信任区间约束;通过ADMM算法,对所述第二约束策略进行优化,确定在满足对智能体进行移动控制的约束条件的情况下,对智能体进行移动控制的最优约束策略;所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:对智能体进行移动控制的约束条件信息为速度约束的情况下,所述奖励函数表示为: ;其中,表示在时间的总奖励,表示智能体在每个时间步处于正常状态时的奖励值,表示智能体向前移动时的奖励值,表示智能体执行的动作幅度过大时的惩罚值;所述代价函数表示为: ;其中,表示在时间的总代价,表示指示函数,表示智能体当前的速度,表示智能体的速度阈值;基于所述控制信息,对所述智能体进行移动控制。
全文数据:
权利要求:
百度查询: 中国科学院自动化研究所 面向智能体控制的可行约束策略优化方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。