基于分布式设计的大规模强化学习训练框架系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学技术大学

摘要：本发明公开了一种基于分布式设计的大规模强化学习训练框架系统，可以通过分布式地运行多个行动者模块，利用集群大量的CPU计算资源，大规模、高并发地产生训练数据，突破了单机训练的物理限制，大幅提升了强化学习中的数据产生效率。通过支持多个学习者模块加入训练，本框架更是进一步地提高了训练效率。同时，为了方便用户使用，本训练框架系统进行了清晰合理的抽象，为强化学习中的所有过程设计了接口，使得用户无需知悉训练中所涉及到的大部分实现细节。因此，通过本发明设计的大规模强化学习分布式训练框架系统，强化学习研究者可以更轻松地进行大规模强化学习，充分利用大规模集群的计算资源，缩短了训练智能体所需的时间。

主权项：1.一种基于分布式设计的大规模强化学习训练框架系统，其特征在于，包括：布设在集群内多台计算机上且分布式并行运行的N个行动者模块与M个学习者模块，以及训练数据集中存储模块，行动者模块与学习者模块在运行时分别占用所属计算机中的不同计算资源，N与M均为设定的正整数；其中：每一行动者模块，用于通过智能体当前包含的网络模型，从当前应用场景中获得训练数据；训练数据集中存储模块，用于存储训练数据；每一学习者模块，用于从所述训练数据集中存储模块中提取训练数据进行网络模型的训练，并输出训练得到的网络模型参数更新所述行动者模块中智能体包含的网络模型；每一行动者模块包括：网络模型推理加速模块、并行环境推演模块与网络模型发现模块；其中：所述网络模型推理加速模块中包含n个智能体副本，所述并行环境推演模块中包含n个环境副本，n个环境副本均为应用场景；所述网络模型发现模块，用于搜寻是否存在训练后的网络模型，若存在，则将所有智能体副本中的网络模型更为新训练后的网络模型；其中，n为设定的正整数；通过所述网络模型推理加速模块与并行环境推演模块的交互，并通过设定的预处理方式，获得训练数据；通过所述网络模型推理加速模块与并行环境推演模块的交互，并通过设定的预处理方式，获得训练数据的步骤包括：通过n个智能体副本与n个环境副本一对一的交互，获得n个环境副本在t时刻的环境状态s1，s2，...，sn，以及n个智能体副本当前包含的网络模型各自根据相应环境状态产生的决策信息a1，a2，...，an；其中，si表示第i个环境副本在t时刻的环境状态，ai表示第i个智能体副本当前包含的网络模型产生的决策信息，i＝1，2，...，n；所述环境状态包括：应用场景的图像中呈现出的各个物体的各类状态；决策信息包括：针对应用场景中某个角色的动作指令；将所述决策信息a1，a2，...，an返回给相应的环境副本，并通过交互，获得n个环境副本t+1时刻的环境状态s′1，s′2，...，s′n奖励；其中，s′i表示第i个环境副本在t+1时刻的环境状态；重复多次交互后通过设定的预处理方式对环境状态，或者对环境状态、决策信息与奖励进行处理，获得训练数据。

全文数据：

权利要求：

百度查询：中国科学技术大学基于分布式设计的大规模强化学习训练框架系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于磁控溅射法制备的Mxene复合Ni/Co纳米薄膜、制备方法及应用

下一篇：纸卷作为香料控制释放系统

相关技术

一种基于磁控溅射法制备的Mxene复合Ni/Co纳米薄膜、制备方法及应用

纸卷作为香料控制释放系统

一种考虑电氢耦合下能源共享中心参与的优化调度方法

业务文本退回原因类别的确定方法、装置、设备及介质

用于远程脉诊的脉搏复现系统

一种用于地铁维护的数字镜像模拟系统及其模拟方法

一种CrMoNbV难熔高熵合金及其制备方法和应用

钢渣固碳搅拌设备及其固碳工艺

靶向铁蛋白的铁死亡诱导型纳米剂型及其制备方法、应用

一种水钻磨抛机的夹具移位装置

金刚石NV色心磁强测量系统及其应用

一种火电等压力容器超大型管板锻件用钢及其制备方法

学习相关技术

学习数据选择装置、学习数据选择方法及异常检测装置_三菱电机株式会社_202280093744.5

一种融合强化学习与递进学习的表情识别方法_南京邮电大学_202210767298.3

一种词组学习工具_董志斌_202420296391.5

基于深度学习的智能验布机_南通海隼数字科技有限公司_202420003602.1

学习能力评估方法及系统_浙江海亮科技有限公司_202411398137.7

拧紧类别的机器学习估计_阿特拉斯·科普柯工业技术公司_202410513962.0

用于训练机器学习模型的方法_罗伯特·博世有限公司_202410537639.7

用于CAD模型检索的机器学习_达索系统公司_202410500489.2

基于小样本不平衡学习的增强极限学习机故障诊断方法_广东石油化工学院_202311491198.3

一种基于深度学习的数据挖掘方法_成都锦城学院_202411135045.X

训练相关技术

训练神经网络模型_皇家飞利浦有限公司_201880088144.3

儿童手指训练器_首都医科大学附属北京儿童医院_202420115512.1

一种便于调节训练强度的训练器_中国人民解放军总医院第二医学中心_202420361741.1

一种乒乓球体能训练用手速训练器材_西南医科大学_202323312240.9

一种帕金森患者训练装置_中国人民解放军联勤保障部队第九〇六医院_202323421877.1

用于训练机器学习模型的方法_罗伯特·博世有限公司_202410537639.7

一种手臂训练器_永康市盾山工贸有限公司_202420796660.4

儿童吞咽障碍摄食训练装置_深圳市儿童医院_202323589128.X

一种题库数据的训练系统及方法_贵州树精英教育科技有限责任公司_202111438296.1

一种髌骨粘连康复治疗训练装置_上海理工大学_201910882525.5

强化相关技术

一种内壁强化装置_浙江奥加汽车零部件制造有限公司_202111629930.X

一种玻璃基板强化方法_南昌勤胜电子科技有限公司_202410831067.3

一种PCW水箱防腐蚀强化结构_无锡嘉禾环保科技有限公司_202420245209.3

一种强化复合木地板加工用铣刀_济宁方都木业有限公司_202411125530.9

一种具有强化结构的液冷板_山东兴能热能科技有限公司_202323573285.1

一种多点接线用强化电线_广州电缆厂有限公司_201811592182.0

一种半干法包裹再生细骨料的强化方法_河南理工大学_202410885194.1

基于注意力机制和深度强化学习的电网潮流调整方法_浙江大学_202210601241.6

基于联邦强化学习的盾构掘进仿真模型参数辨识方法系统_华中科技大学_202310188885.1

一种结构强化的复合型家具板材_江西慧华家具有限公司_202420555413.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于分布式设计的大规模强化学习训练框架系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务