Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

适用于多种棋类的落子策略和局面评估方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:复旦大学

摘要:本发明属于计算机博弈技术领域,具体为适用于多种棋类的落子策略和局面评估方法。本发明方法包括:通过神经网络预测落子概率和落子估值;使用MCTS算法和UpdateBoardValue算法产生训练数据;通过强化学习方法迭代训练神经网络;最终使用MCTS算法输出落子策略和局面估值。本发明提供了一种对人类友好的、无需知道先手方优势值、适用于多种棋类(如围棋、黑白棋、国际象棋、象棋、国际跳棋)的局面评估函数和落子策略函数。

主权项:1.适用于多种棋类的落子策略和局面评估方法,其特征在于,具体步骤如下:1利用残差神经网络、像素级分割方法,实现局面评估函数和落子策略函数;2利用MCTS算法、EarlyStop算法、UpdateBoardValue算法,产生训练数据;3重复步骤1和步骤2,进行迭代训练,得到神经网络;4利用步骤3训练的神经网络和MCTS算法,产生最终的局面评估函数和落子策略函数;其中:步骤1实现的局面评估函数和落子策略函数,具体过程如下:11输入8步历史局面,每个局面包含CK个通道,组成输入块;12输入块依次经过残差塔、批量归一化、ReLU激活函数处理;其中残差塔包含K个残差块,每个残差块具有C个通道;13对落子型棋类和移动型棋类采用不同的结构,输出落子策略函数;14使用像素级分割方法,对步骤12的输出依次进行通道数为CK的1x1卷积、通道Softmax,得到局面评估函数;步骤2中所述产生训练数据,具体过程如下:21使用搜索次数为S1的MCTS算法产生每步的落子概率和局面评估函数;依照概率选择下一步,进行落子;22不断重复步骤21,直至终局;同时使用EarlyStop算法,若连续2步的检测到评估值稳定或连续4步检测到某一方优势过大,则提前终止对局;23对产生的长度为T的落子概率和局面评估函数,使用UpdateBoardValue算法合成训练数据;步骤3中所述进行迭代训练,具体过程如下:31将步骤2产生的训练数据插入对局数为R的经验池,若经验池中的对局数大于R,则淘汰最旧的数据;32自对弈G局后,从经验池中随机选择数据,使用选择的数据训练神经网络;33使用训练后的神经网络参数替换MCTS所使用的神经网络;34重复上述步骤,进行迭代训练;步骤4中所述产生最终的局面评估函数和落子策略函数,具体过程如下:41使用步骤3产生的神经网络,每步使用MCTS算法进行次数为S2的搜索;42搜索之后,选择搜索树根节点的局面估值作为最终的局面评估函数,选择搜索次数最多的子节点进行落子。

全文数据:

权利要求:

百度查询: 复旦大学 适用于多种棋类的落子策略和局面评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。