买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本申请属于机器学习技术领域,具体而言,涉及一种并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质。该方法包括:利用非完全回忆聚类方法,对不完美信息博弈的原始特征空间进行压缩,得到抽象特征空间;利用MCCFR最小化方法,在所述抽象特征空间内,通过自我博弈,迭代生成蓝图策略;利用特征字符串的哈希算法,对蓝图策略进行分布式存储和更新。该方法使用非完全回忆进行特征空间抽象,提升策略鲁棒性;在MCCFR算法的基础上使用整体期望收益替代后悔值进行间隔更新,使用采样动作频数生成最终策略,结合特征映射和并行框架,提高算法收敛速度,缩短算法训练时间。
主权项:1.一种并行化不完美信息博弈策略生成方法,其特征在于,包括以下步骤:根据非完全回忆聚类方法,对不完美信息博弈的原始特征空间进行压缩,得到抽象特征空间;利用MCCFR最小化方法,在所述抽象特征空间内,通过自我博弈,迭代生成蓝图策略;利用特征字符串的哈希算法,对蓝图策略进行分布式存储和更新;所述利用MCCFR最小化方法,在所述抽象特征空间内,通过自我博弈,迭代生成蓝图策略,包括:1设定一个蓝图策略,初始化时,该蓝图策略为随机策略,设定一个可重复的博弈对局,该对局包含的博弈玩家数目为P;2将该蓝图策略输入博弈对局中,通过自我博弈产生样本,使用基于外部采样的MCCFR最小化算法,在所述抽象特征空间内,通过整体期望收益替代原始MCCFR算法中的反事实回报来计算所述自我博弈产生样本的后悔值;假定在该样本中博弈玩家采取的行动为a,则可得当前玩家p在抽象信息集Ip下关于a的整体后悔值;3根据所述后悔值计算方法,更新当前博弈玩家p在下一迭代轮次的蓝图策略;4使用间隔更新和并行蒙特卡洛采样方法交替更新不同博弈玩家策略,设定后悔值变化幅度阈值和策略更新次数阈值,每当博弈玩家p的策略迭代后,若累计整体后悔值变化幅度超过阈值,且累计更新次数抵达阈值时,切换为另一玩家p′,重复2至3对玩家p′更新策略;5使用动作采样替代原始MCCFR算法中的抵达概率加权来计算最终输出的蓝图策略,在每轮策略更新迭代后,创建一个新的博弈环境,输入当前轮即时策略并进行K次模拟对局,记录每次对局在不同抽象信息集I下每个动作a被选中的次数,在T轮迭代后输出的蓝图策略。
全文数据:
权利要求:
百度查询: 清华大学 并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。