Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 鹏城实验室夏灿铭获国家专利权

鹏城实验室夏灿铭获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉鹏城实验室申请的专利基于强化学习的模型训练方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120563943B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511054283.2,技术领域涉及:G06V10/764;该发明授权基于强化学习的模型训练方法、装置、设备及存储介质是由夏灿铭;李论通;彭佩玺;许浩然;常亦谦;谭光;黎文博;许芬;田永鸿设计研发完成,并于2025-07-30向国家知识产权局提交的专利申请。

基于强化学习的模型训练方法、装置、设备及存储介质在说明书摘要公布了:本申请实施例提供了一种基于强化学习的模型训练方法、装置、设备及存储介质。包括:获取样本训练数据集;针对样本训练数据中的第一样本状态子数据,通过预设强化学习模型生成第一动作子数据并计算第一预测奖励值,以及通过视觉语言模型生成第二动作子数据并计算第二预测奖励值;确定目标第一动作子数据和目标第二动作子数据并构建第一正则化项,基于第一正则化项与策略网络子损失生成第一目标损失;基于预测状态子数据得到确定性决策置信度以构建第二正则化项,并基于第二正则化项与熵损失项生成第二目标损失;根据第一目标损失和第二目标损失对预设强化学习模型的参数进行调节,得到目标强化学习模型。以此,能够提高训练的效率和模型的性能。

本发明授权基于强化学习的模型训练方法、装置、设备及存储介质在权利要求书中公布了:1.一种基于强化学习的模型训练方法,其特征在于,所述方法包括: 获取样本训练数据集,其中,所述样本训练数据集包括多个样本训练数据,每个样本训练数据至少包括第一样本状态子数据以及下一状态阶段的第二样本状态子数据,所述第一样本状态子数据为预设强化学习模型从环境获取的观测图像; 针对所述每个样本训练数据中的所述第一样本状态子数据,通过所述预设强化学习模型生成对应的第一动作子数据,并根据所述第一样本状态子数据和所述第一动作子数据计算第一预测奖励值,以及,通过视觉语言模型生成对应的第二动作子数据,并根据所述第一样本状态子数据和所述第二动作子数据计算第二预测奖励值; 确定所述第二预测奖励值大于所述第一预测奖励值对应的目标第一动作子数据和目标第二动作子数据,并基于所述目标第二动作子数据和所述目标第一动作子数据之间的差异构建第一正则化项,并基于所述第一正则化项与预先构建的策略网络子损失,生成所述样本训练数据集对应的第一目标损失; 其中,所述基于所述第一正则化项与预先构建的策略网络子损失,生成所述样本训练数据集对应的第一目标损失之前,还包括:获取所述预设强化学习模型针对所述每个样本训练数据的所述第一样本状态子数据生成的动作概率分布,并根据所述动作概率分布进行动作采样,得到采样动作子数据的对数概率;获取所述预设强化学习模型的熵温度系数,并基于所述对数概率和所述熵温度系数的乘积,得到第一熵乘积;根据所述采样动作子数据确定采样奖励值,并基于所述第一熵乘积与所述采样奖励值之间的差异,得到所述每个样本训练数据的状态损失项;通过所述多个样本训练数据对应的多个状态损失项的均值,得到所述预设强化学习模型的策略网络子损失; 基于所述第二动作子数据预测下一状态阶段的预测状态子数据,并基于所述预测状态子数据与所述第二样本状态子数据之间的差异,确定所述视觉语言模型对应的确定性决策置信度; 获取所述预设强化学习模型的熵温度系数,并基于所述每个样本训练数据对应的确定性决策置信度和所述熵温度系数之间的差异,构建第二正则化项;获取预先构建的熵损失项、针对所述熵损失项设置的第一权重,以及针对所述第二正则化项设置的第二权重;基于所述第一权重,对所述熵损失项进行调节,得到目标熵损失项;基于所述第二权重,对所述第二正则化项进行调节,得到目标第二正则化项;基于所述每个样本训练数据对应的所述目标熵损失项和所述目标第二正则化项,生成所述样本训练数据集对应的第二目标损失; 根据所述第一目标损失和所述第二目标损失对所述预设强化学习模型的参数进行调节,得到目标强化学习模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人鹏城实验室,其通讯地址为:518000 广东省深圳市南山区兴科一街2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。