首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Kubernetes容器集群的分布式强化学习系统设计方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:沈阳飞机设计研究所扬州协同创新研究院有限公司

摘要:本发明公开一种基于Kubernetes容器集群的分布式强化学习系统设计方法,属于大规模分布式强化学习系统设计领域通过使用了Kubernetes系统构建容器集群,将强化学习系统的功能模块抽象成一个个服务容器,将模型训练和采样部分构建成一个强化学习模型容器集群,并且通过Manager负责整个训练过程中任务分发、资源管理调度。本发明可以提高大规模强化学习的资源利用率,减少人工干预,加快大规模强化学习部署和训练。

主权项:1.一种基于Kubernetes容器集群的分布式强化学习系统设计方法,其特征在于,具体如下:1)基于Kubernetes构建容器集群,包括在CPU机器和GPU机器安装Kubernetes,并将这些机器全部加入到同一个容器集群中;2)将强化学习采样和训练代码制作成Docker镜像,根据需求在容器集群中启动多个容器实例;3)在容器集群中启动调度器管理程序,负责任务分发、资源调度、参数调优和模型保存工作;具体的,使用基于采样器-学习器架构的分布式强化学习训练,包括以下几种角色的进程,这些进程均以容器的形式运行在Kubernetes容器集群中;采样器:从参数服务器拿到最新的网络参数,使用多个CPU并行采样,产生一系列观测数据,观测数据放入经验缓冲池中;学习器:从采样器拿到观察数据,使用梯度下降更新神经网络模型;参数服务器:负责保存最新的网络参数;经验缓冲池:负责保存采样器产生的样本;调度器:负责分发任务和资源管理;用户只关心需要多少资源,不需要关心资源运行在哪一台机器上,编写配置脚本,通过用户接口向调度器发送指令,调度器再去分发任务和分配资源;整个分布式强化学习流程分为以下几步:A采样;用户编写完采样脚本,将脚本制作成Docker镜像,通过调度器将采样任务以容器的形式运行在Kubernetes容器集群中,当一个采样进程意外结束时,Kubernetes容器集群根据用户的设定自动的重启这个采样进程;当采样进程的负载超过用户设定的阈值时,Kubernetes容器集群对该进程进行扩容;采样任务主要流程包括:启动多个CPU进程,形成一个CPUGroup负责与强化学习环境进行互动,产生数据;创建经验缓冲池,存放采样得到的数据;采样进程定时去查询参数服务器中参数是否更新,当网络参数更新后,采样进程去获取最新的网络参数,并开始新的一轮采样任务;B训练;用户编写完训练脚本,将脚本制作成Docker镜像,通过调度器将训练任务以容器的形式运行在Kubernetes容器集群中;和采样任务一样,训练进程意外结束时,Kubernetes容器集群根据用户的设定自动的重启这个训练进程;当训练进程的负载超过用户设定的阈值时,Kubernetes容器集群对该进程进行扩容;训练任务主要流程包括:启动多个GPU进程,形成一个GPUGroup利用梯度下降算法去更新网络参数,一轮训练结束后,训练进程会将更新后的网络参数放置到参数服务器上供采样进程使用;训练进程会监控经验缓冲池容量的大小,如果样本数满足训练要求,就会开始训练任务。

全文数据:

权利要求:

百度查询: 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于Kubernetes容器集群的分布式强化学习系统设计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。