Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于奖惩机制和动作策略的加权损失函数更新方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东工业大学

摘要:本发明公开了一种基于奖惩机制和动作策略的加权损失函数更新方法。本发明包括以下步骤:定义加权交叉熵损失函数和普通交叉熵损失函数;初始化动作池、动作累积奖励池、动作概率池;设计奖惩机制和动作选择策略;调整加权交叉熵损失函数的权值,实现神经网络训练中加权交叉熵损失函数的动态更新。本发明能够根据神经网络模型每一周期的训练结果,结合奖惩机制和动作选择策略动态更新加权交叉熵损失函数的权值,进行反向传播,灵活更新不同类别的权值,调整模型对不同类别的误分类的敏感度,可以帮助模型更好地适应数据集的特点,从而提高模型的泛化能力和性能。

主权项:1.基于奖惩机制和动作策略的加权损失函数更新方法,其特征在于,包含如下步骤:步骤一、定义加权交叉熵损失函数和普通交叉熵损失函数;定义加权交叉熵损失函数Jw作为优化算法的目标函数,在训练中进行反向传播,动态调整类权值的目标函数;定义普通交叉熵损失函数J仅用来度量模型拟合效果,求模型的损失值作为度量指标;步骤二、初始化动作池、动作累积奖励池、动作概率池;设计动作池M:定义加权交叉熵损失函数类权值w的变化方向;设计动作累积奖励池RMs:记录各个动作当前的累积奖励值;设计动作概率池Pro:确定每个动作被选取的概率;步骤三、训练模型;对神经网络模型进行训练,前向传播使用普通交叉熵损失函数计算损失值和F1分数,使用加权交叉熵损失函数的损失值进行反向传播,重复训练min_epoch次为一个周期,计算周期平均验证损失值和平均F1分数;步骤四、设计奖惩机制和动作选择策略;根据神经网络模型每轮训练的平均F1分数和平均验证损失值,基于奖励机制计算双重奖励值R,根据双重奖励值R基于动作选择策略更新动作累积奖励池和动作概率池;步骤五:调整加权交叉熵损失函数的类权值;基于更新后动作概率池的概率随机抽取下一个训练周期的动作,调整加权交叉熵损失函数的类权值,实现神经网络训练中加权交叉熵损失函数的动态更新。

全文数据:

权利要求:

百度查询: 广东工业大学 基于奖惩机制和动作策略的加权损失函数更新方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。