Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的智能体控制方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京华清飞扬网络股份有限公司

摘要:本发明公开了一种基于深度强化学习的智能体控制方法及系统,包括:首先,通过多层感知机制获取当前智能体及敌对智能体的状态信息,并生成特征向量。再利用注意力机制确定目标敌人。同时,获取并抽取智能体所在游戏地图的编码特征。这些特征输入策略网络,得到行动命令。然后,利用预设的值函数网络和奖励函数分别获得行动命令的预测评估结果和实际奖励结果。最后,根据这两个结果优化策略网络,以便制定更好的行动决策。如此设计,结合了深度学习和强化学习,提高了智能体的决策能力,从而增强了游戏体验。

主权项:1.基于深度强化学习的智能体控制方法,其特征在于,包括:获取当前智能体的当前状态信息和多个敌对智能体的敌对状态信息,并将所述当前智能体的当前状态信息和所述多个敌对智能体的敌对状态信息输入基于多层感知机制构建的实体标量编码器,得到所述当前智能体的实体特征向量和所述多个敌对智能体各自对应的敌对特征向量;将所述实体特征向量和多个所述敌对特征向量输入基于注意力机制构建的目标敌人选择单元,从所述多个敌对智能体中确定出目标敌对智能体;获取所述当前智能体所在的游戏地图,并抽取所述当前智能体的地图编码特征;将所述实体特征向量、所述目标敌对智能体对应的目标敌对特征向量和所述地图编码特征输入策略网络,获取用于指示所述当前智能体是否针对所述目标敌对智能体执行射击操作的行动命令;基于预先设置的值函数网络获取所述行动命令的预测评估结果;基于预先设置的奖励函数获取所述行动命令的实际奖励结果;根据所述预测评估结果和所述实际奖励结果对所述策略网络进行优化调整,以利用所述优化调整后的策略网络制定所述当前智能体的行动决策;所述目标敌人选择单元包括级联的Softmax架构和GumbelSoftmaxSampling架构,所述将所述实体特征向量和多个所述敌对特征向量输入基于注意力机制构建的目标敌人选择单元,从所述多个敌对智能体中确定出目标敌对智能体,包括:将所述实体特征向量与多个所述敌对特征向量进行点积计算,得到多个向量相乘结果构建的目标矩阵,所述目标矩阵中的每个元素用于表征所述当前智能体和每个所述敌对智能体的相关性;利用所述Softmax架构对所述目标矩阵进行归一化处理,得到所述目标矩阵对应的概率分布,所述概率分布中的每个元素用于表征所述当前智能体选择每个所述敌对智能体的离散动作概率;利用所述GumbelSoftmaxSampling架构对所述概率分布进行处理,得到新的概率分布;在训练阶段,根据所述新的概率分布计算损失函数并执行反向传播更新模型参数;在推理阶段,根据所述新的概率分布进行采样,确定最终选择的目标敌对智能体;所述策略网络包括移动策略子网络和射击策略子网络,所述将所述实体特征向量、所述目标敌对智能体对应的目标敌对特征向量和所述地图编码特征输入策略网络,获取用于指示所述当前智能体是否针对所述目标敌对智能体执行射击操作的行动命令,包括:获取所述地图编码特征的空间特征图,所述空间特征图包括所述当前智能体的障碍物信息和所述目标敌对智能体的位置信息;将所述空间特征图输入所述移动策略子网络,得到预设尺寸的特征图预测结果;对所述特征图预测结果进行归一化处理,得到所述当前智能体的移动方向概率分布;将所述实体特征向量、所述目标敌对特征向量和所述地图编码特征进行基于元素相加特征融合,得到第一融合特征向量;将所述第一融合特征向量输入所述射击策略子网络,得到所述当前智能体是否射击的动作概率分布;根据所述移动方向概率分布和所述动作概率分布,获取用于指示所述当前智能体是否针对所述目标敌对智能体执行射击操作的行动命令;所述基于预先设置的值函数网络获取所述行动命令的预测评估结果,包括:获取所述当前智能体执行所述行动命令后的所述当前智能体的待定状态信息和所述多个敌对智能体的待定状态信息;提取所述当前智能体的待定状态信息的实体状态向量和所述多个敌对智能体的待定状态信息各自对应的敌对状态向量;对多个所述敌对状态向量进行平均处理,得到平均敌对状态向量;将所述实体状态向量和所述平均敌对状态向量进行基于元素相加特征融合,得到第二融合特征向量;将所述第二融合特征向量输入预先设置的值函数网络获取所述行动命令的预测评估结果;所述基于预先设置的奖励函数获取所述行动命令的实际奖励结果,包括:基于预先设置的奖励函数:获取所述行动命令的实际奖励结果;其中,所述为实际奖励结果,所述是奖励类型的权重;所述策略网络是通过以下方式获取的,包括:获取初始策略网络,并基于所述初始策略网络与预设射击游戏环境交互多次,得到游戏状态轨迹;根据所述游戏状态轨迹结合预设值函数网络,计算得到所述游戏状态轨迹包括的多种状态的折扣奖励和优势值;基于所述折扣奖励和所述优势值更新所述初始策略网络,得到中间策略网络,并基于均方损失函数更新所述预设值函数网络;根据所述中间策略网络和更新后的所述预设值函数网络进行迭代训练,得到训练完成的所述策略网络;所述根据所述游戏状态轨迹结合预设值函数网络,计算得到所述游戏状态轨迹的折扣奖励和优势值,包括:根据公式:计算得到所述游戏状态轨迹的折扣奖励;其中,为所述折扣奖励,为所述预设值函数网络估计的状态的值函数为折扣因子,为策略网络与游戏环境交互次数,为游戏当前时刻;根据公式:计算得到所述游戏状态轨迹的优势值;其中,为所述优势值;所述方法还包括:在所述当前智能体针对所述目标敌对智能体执行射击操作的行动命令的情况下,获取所述当前智能体配置的用于执行所述射击操作的射击道具模组;获取所述射击道具模组在当前时间点的连续位置坐标信息;所述连续位置坐标信息表征所述射击道具模组在所述当前时间点关联的已记录时间范围和预测时间范围的位置坐标信息;所述连续位置坐标信息是基于过往位置坐标信息和预期位置坐标信息构成的;其中,所述过往位置坐标信息是所述射击道具模组在所述当前时间点关联的已记录时间范围的位置坐标信息;所述预期位置坐标信息是对初始预期位置坐标信息和在所述当前时间点针对所述射击道具模组的操作命令进行分析后得到的,所述初始预期位置坐标信息是基于预先训练完成的位置预测模型输出的所述射击道具模组在所述当前时间点关联的预测时间范围的位置坐标信息;所述过往位置坐标信息是通过以下方式生成的:在所述当前时间点关联的已记录时间范围获取多个历史时刻;获取所述射击道具模组在所述多个历史时刻中每个历史时刻的轨迹坐标点、朝向数据及速率数据;基于所述射击道具模组在所述每个历史时刻的轨迹坐标点、朝向数据及速率数据,生成所述过往位置坐标信息;所述初始预期位置坐标信息是在所述当前时间点的上一时刻确定所述射击道具模组在所述当前时间点的射击道具状态的过程中,基于所述预先训练完成的位置预测模型预测得到的;其中,所述当前时间点关联的预测时间范围包含多个预测时刻,所述初始预期位置坐标信息是由输出的所述射击道具模组在每个预测时刻的轨迹坐标点、朝向数据及速率数据构成;所述操作命令包含指示所述射击道具模组进行运动的方向矢量及速度值;所述预期位置坐标信息是通过以下方式获取的:基于所述操作命令中的方向矢量,对所述初始预期位置坐标信息中所述射击道具模组在所述每个预测时刻的朝向数据执行校正操作,得到所述射击道具模组在所述每个预测时刻的校正方向矢量;基于所述操作命令中的方向矢量和速度值,对所述初始预期位置坐标信息中所述射击道具模组在所述每个预测时刻的速率数据执行校正操作,得到所述射击道具模组在所述每个预测时刻的校正速度值;基于所述多个预测时刻的前序预测时刻匹配的校正移动路径点和校正速度值,对所述多个预测时刻的目标预测时刻匹配的轨迹坐标点执行校正操作,得到所述射击道具模组在所述目标预测时刻匹配的校正移动路径点;所述前序预测时刻为所述目标预测时刻的上一时刻;基于所述射击道具模组在所述每个预测时刻的校正方向矢量、校正速度值和校正移动路径点,得到所述预期位置坐标信息;所述射击道具模组配置有虚拟构造的多个动态节点;获取所述射击道具模组的每个动态节点分别匹配的旋转轴数;计算在所述当前时间点所述射击道具模组的所述每个动态节点在匹配的每个旋转轴数下的旋转量;基于所述每个动态节点在匹配的每个旋转轴数下的旋转量,生成当前道具交互信息;所述当前道具交互信息表征所述射击道具模组在所述当前时间点的射击道具状态;所述射击道具模组配置有虚拟构造的多个动态节点;每个动态节点均配置有匹配的旋转轴数;基于预先训练完成的位置预测模型根据所述连续位置坐标信息和所述当前道具交互信息,推算所述射击道具模组的每个动态节点在匹配的每个旋转轴数下,由所述当前时间点状态转移到所述当前时间点的后序时间点的参考旋转量;基于推算的所述每个动态节点在对应每个旋转轴数下的参考旋转量,生成道具操作信息;所述道具操作信息表征所述射击道具模组从所述当前时间点到所述当前时间点的后序时间点的操作模式;基于所述道具操作信息和所述当前道具交互信息确定所述射击道具模组在所述当前时间点的后序时间点的射击道具状态,并将所述射击道具模组由所述当前道具交互信息指示的射击道具状态切换为所述当前时间点的后序时间点的射击道具状态;所述基于预先训练完成的位置预测模型根据所述连续位置坐标信息和所述当前道具交互信息,推算所述射击道具模组的每个动态节点在匹配的每个旋转轴数下,从所述当前时间点状态转移到所述当前时间点的后序时间点的参考旋转量,包括:基于所述预先训练完成的位置预测模型基于所述连续位置坐标信息和所述当前道具交互信息,推算用于指示所述每个动态节点在对应每个旋转轴数下,从所述当前时间点到所述当前时间点的后序时间点的动态变化的正态分布中心值;所述正态分布中心值包含多个方面的分量值,所述正态分布中心值中一个方面的分量值用于指示一个动态节点在对应一个旋转轴数上的动态变化;获取由所述正态分布中心值确定的目标正态分布,并针对所述正态分布中心值的每个方面分别对所述目标正态分布进行随机抽取,得到所述每个方面分别匹配的随机旋转量;分别对所述每个方面匹配的分量值和随机旋转量进行累加,得到所述每个动态节点在匹配的每个旋转轴数下的参考旋转量;一个参考旋转量是对应方面所属分量值和随机旋转量的累加值。

全文数据:

权利要求:

百度查询: 北京华清飞扬网络股份有限公司 基于深度强化学习的智能体控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。