基于奖惩机制和动作策略的加权损失函数更新方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广东工业大学

摘要：本发明公开了一种基于奖惩机制和动作策略的加权损失函数更新方法。本发明包括以下步骤：定义加权交叉熵损失函数和普通交叉熵损失函数；初始化动作池、动作累积奖励池、动作概率池；设计奖惩机制和动作选择策略；调整加权交叉熵损失函数的权值，实现神经网络训练中加权交叉熵损失函数的动态更新。本发明能够根据神经网络模型每一周期的训练结果，结合奖惩机制和动作选择策略动态更新加权交叉熵损失函数的权值，进行反向传播，灵活更新不同类别的权值，调整模型对不同类别的误分类的敏感度，可以帮助模型更好地适应数据集的特点，从而提高模型的泛化能力和性能。

主权项：1.基于奖惩机制和动作策略的加权损失函数更新方法，其特征在于，包含如下步骤：步骤一、定义加权交叉熵损失函数和普通交叉熵损失函数；定义加权交叉熵损失函数Jw作为优化算法的目标函数，在训练中进行反向传播，动态调整类权值的目标函数；定义普通交叉熵损失函数J仅用来度量模型拟合效果，求模型的损失值作为度量指标；步骤二、初始化动作池、动作累积奖励池、动作概率池；设计动作池M：定义加权交叉熵损失函数类权值w的变化方向；设计动作累积奖励池RMs：记录各个动作当前的累积奖励值；设计动作概率池Pro：确定每个动作被选取的概率；步骤三、训练模型；对神经网络模型进行训练，前向传播使用普通交叉熵损失函数计算损失值和F1分数，使用加权交叉熵损失函数的损失值进行反向传播，重复训练min_epoch次为一个周期，计算周期平均验证损失值和平均F1分数；步骤四、设计奖惩机制和动作选择策略；根据神经网络模型每轮训练的平均F1分数和平均验证损失值，基于奖励机制计算双重奖励值R，根据双重奖励值R基于动作选择策略更新动作累积奖励池和动作概率池；步骤五：调整加权交叉熵损失函数的类权值；基于更新后动作概率池的概率随机抽取下一个训练周期的动作，调整加权交叉熵损失函数的类权值，实现神经网络训练中加权交叉熵损失函数的动态更新。

全文数据：

权利要求：

百度查询：广东工业大学基于奖惩机制和动作策略的加权损失函数更新方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于修复叶片根部的方法

下一篇：新能源多场站柔性直流外送系统强度评估方法、装置

相关技术

用于修复叶片根部的方法

新能源多场站柔性直流外送系统强度评估方法、装置

用于传递和存储用于ESIM设备变更的激活码的方法和装置

一种室内立式蔬菜栽培架

设备健康预测方法和计算机可读存储介质

基于大模型的交互方法、装置、终端设备和存储介质

降噪模型的训练方法、图像降噪方法、电子设备及介质

一种煤矿井下风水管路在线监测系统

一种一体式行星齿轮组减速机构

一种无线电力传输方法、无线电力发送器和无线电力接收器

一种金属镱的显微组织显示方法

具有悬臂式叶轮的血液泵

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于奖惩机制和动作策略的加权损失函数更新方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务