并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

导航：龙图腾网> 最新专利技术> 并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：清华大学

摘要：本申请属于机器学习技术领域，具体而言，涉及一种并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质。该方法包括：利用非完全回忆聚类方法，对不完美信息博弈的原始特征空间进行压缩，得到抽象特征空间；利用MCCFR最小化方法，在所述抽象特征空间内，通过自我博弈，迭代生成蓝图策略；利用特征字符串的哈希算法，对蓝图策略进行分布式存储和更新。该方法使用非完全回忆进行特征空间抽象，提升策略鲁棒性；在MCCFR算法的基础上使用整体期望收益替代后悔值进行间隔更新，使用采样动作频数生成最终策略，结合特征映射和并行框架，提高算法收敛速度，缩短算法训练时间。

主权项：1.一种并行化不完美信息博弈策略生成方法，其特征在于，包括以下步骤：根据非完全回忆聚类方法，对不完美信息博弈的原始特征空间进行压缩，得到抽象特征空间；利用MCCFR最小化方法，在所述抽象特征空间内，通过自我博弈，迭代生成蓝图策略；利用特征字符串的哈希算法，对蓝图策略进行分布式存储和更新；所述利用MCCFR最小化方法，在所述抽象特征空间内，通过自我博弈，迭代生成蓝图策略，包括：1设定一个蓝图策略，初始化时，该蓝图策略为随机策略，设定一个可重复的博弈对局，该对局包含的博弈玩家数目为P；2将该蓝图策略输入博弈对局中，通过自我博弈产生样本，使用基于外部采样的MCCFR最小化算法，在所述抽象特征空间内，通过整体期望收益替代原始MCCFR算法中的反事实回报来计算所述自我博弈产生样本的后悔值；假定在该样本中博弈玩家采取的行动为a，则可得当前玩家p在抽象信息集Ip下关于a的整体后悔值；3根据所述后悔值计算方法，更新当前博弈玩家p在下一迭代轮次的蓝图策略；4使用间隔更新和并行蒙特卡洛采样方法交替更新不同博弈玩家策略，设定后悔值变化幅度阈值和策略更新次数阈值，每当博弈玩家p的策略迭代后，若累计整体后悔值变化幅度超过阈值，且累计更新次数抵达阈值时，切换为另一玩家p′，重复2至3对玩家p′更新策略；5使用动作采样替代原始MCCFR算法中的抵达概率加权来计算最终输出的蓝图策略，在每轮策略更新迭代后，创建一个新的博弈环境，输入当前轮即时策略并进行K次模拟对局，记录每次对局在不同抽象信息集I下每个动作a被选中的次数，在T轮迭代后输出的蓝图策略。

全文数据：

权利要求：

百度查询：清华大学并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种便捷的数据故障检测记录仪

下一篇：一种无溶剂纸塑收卷装置

相关技术

一种便捷的数据故障检测记录仪

一种无溶剂纸塑收卷装置

一种起吊工装

一种手持激光测高设备

片烟运输线用电梯按键装置

一种新型弹簧操纵装置

一种多功能料理机

一种防松螺丝

一种便于收放的无人机脚架

一种土木工程大型物料搬运装置

一种防螨枕头

一种酒瓶放置座面纸粘贴装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务