Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 厦门渊亭信息科技有限公司钱智毅获国家专利权

厦门渊亭信息科技有限公司钱智毅获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉厦门渊亭信息科技有限公司申请的专利面向兵棋推演的智能决策方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118001744B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410282120.9,技术领域涉及:A63F13/67;该发明授权面向兵棋推演的智能决策方法、装置及存储介质是由钱智毅;黄在斌;洪万福;谢思满;皇甫潇潇设计研发完成,并于2024-03-12向国家知识产权局提交的专利申请。

面向兵棋推演的智能决策方法、装置及存储介质在说明书摘要公布了:本发明提供了一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质,该方法包括:步骤S1,对兵棋推演场景进行建模;步骤S2,根据对兵棋推演场景的建模,构建兵棋推演场景的上下层分层决策网络;步骤S3,通过强化学习对上下层分层决策网络进行分层网络训练;其中,对上层决策网络针对所有多智能体采用集中式训练的方式进行训练;对下层决策网络针对各智能体采用独立训练的方式进行训练;步骤S4,利用完成训练的多智能体进行对战决策。针对兵棋推演这类具有高维状态空间、观测空间和动作空间的复杂训练场景,本发明实施例的技术方案提高了整体训练的效率,可以实现特定兵棋推演想定下的有效决策。

本发明授权面向兵棋推演的智能决策方法、装置及存储介质在权利要求书中公布了:1.一种面向兵棋推演的多智能体强化学习智能决策方法,其特征在于,包括:步骤S1,对兵棋推演场景进行建模,包括对兵棋推演场景的智能体集合进行定义及对状态空间、观测空间和动作空间进行建模;其中,对动作空间进行建模包括:基于任务和行为上下两层的分层动作对兵棋推演场景中的动作进行重定义;其中,上层动作为任务,所述任务包括:基于六角格的任务和基于敌方算子的任务;下层动作为行为,所述行为是离散动作,示出了智能体当前时刻的移动方向,包括:代表周围六角格的六个方向和停止;步骤S2,根据对兵棋推演场景的建模,构建兵棋推演场景的上下层分层决策网络,其中,将上下层分层决策分别视为马尔可夫决策过程,所述上下层分层决策网络的决策结果一起用于形成环境所需的复合操作;其中,上层决策网络用于从任务集中为智能体选择可用的任务;下层决策网络用于根据上层决策网络选择的任务来选择智能体要执行的动作;其中,通过与环境交互来构建所述上下层分层决策网络,其中:在环境输出当前时刻t的全局系统状态st后,控制方从st中获取其可见的原始观测信息,并对所述原始观测信息进行结构化提取后将每个智能体的观测信息和可选任务集合传给每个智能体的上层决策网络;然后,所述上层决策网络再将每个智能体的观测信息与每个智能体的上层决策网络所选择的任务一起传给下层决策网络;最后根据智能体的上层决策网络所选择的任务以及下层决策网络所选择的行为得到相应智能体的最终动作;控制方将其所有智能体的联合动作一起传回环境,以由环境根据双方动作推进并给出下一时刻t+1的全局系统状态st+1,并将当前步控制方的联合回报rt传回所述上下层分层决策网络;步骤S3,通过强化学习对所述上下层分层决策网络进行分层网络训练;其中,对所述上层决策网络针对所有多智能体采用集中式训练的方式进行训练;对所述下层决策网络针对各智能体采用独立训练的方式进行训练;步骤S4,利用完成训练的多智能体进行对战决策。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门渊亭信息科技有限公司,其通讯地址为:361000 福建省厦门市软件园二期望海路61号801单元N8-01;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。