首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于奖惩机制和动作策略的加权损失函数更新方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东工业大学

摘要:本发明公开了一种基于奖惩机制和动作策略的加权损失函数更新方法。本发明包括以下步骤:定义加权交叉熵损失函数和普通交叉熵损失函数;初始化动作池、动作累积奖励池、动作概率池;设计奖惩机制和动作选择策略;调整加权交叉熵损失函数的权值,实现神经网络训练中加权交叉熵损失函数的动态更新。本发明能够根据神经网络模型每一周期的训练结果,结合奖惩机制和动作选择策略动态更新加权交叉熵损失函数的权值,进行反向传播,灵活更新不同类别的权值,调整模型对不同类别的误分类的敏感度,可以帮助模型更好地适应数据集的特点,从而提高模型的泛化能力和性能。

主权项:1.基于奖惩机制和动作策略的加权损失函数更新方法,其特征在于,根据任务需求对数据进行预处理后,切分提取12导联心跳段序列,并将预处理后提取数据划分训练集和测试集;该方法的目标是对12导联ECG信号进行识别二分类,采用GRU神经网络模型作为分类模型,使用Python中的深度学习框架PyTorch构建GRU神经网络模型;包含如下步骤:步骤一、定义加权交叉熵损失函数和普通交叉熵损失函数;定义加权交叉熵损失函数Jw作为优化算法的目标函数,在训练中进行反向传播,动态调整类权值的目标函数;定义普通交叉熵损失函数J仅用来度量模型拟合效果,求模型的损失值作为度量指标;步骤二、初始化动作池、动作累积奖励池、动作概率池;设计动作池M:定义加权交叉熵损失函数类权值w的变化方向;设计动作累积奖励池PMs:记录各个动作当前的累积奖励值;设计动作概率池Pro:确定每个动作被选取的概率;步骤三、训练模型;对神经网络模型进行训练,前向传播使用普通交叉熵损失函数计算损失值和F1分数,使用加权交叉熵损失函数的损失值进行反向传播,重复训练min_epoch次为一个周期,计算周期平均验证损失值和平均F1分数;步骤四、设计奖惩机制和动作选择策略;根据神经网络模型每轮训练的平均F1分数和平均验证损失值,基于奖励机制计算双重奖励值R,根据双重奖励值R基于动作选择策略更新动作累积奖励池和动作概率池;步骤五:调整加权交叉熵损失函数的类权值;基于更新后动作概率池的概率随机抽取下一个训练周期的动作,调整加权交叉熵损失函数的类权值,实现神经网络训练中加权交叉熵损失函数的动态更新;步骤二具体实现如下:所述设计和初始化动作池M实现如下:M=[M1,M2,M3,M4,M5]=[w大减小、w小减少、w不变、w小增加、w大增加]=[-1、-0.1、+0、+0.1、+1]所述设计和初始化动作累积奖励池RMs如下:RMs=[R1,R2,…,Ri,…,Rn];其中,RMs的初始值=0,R£是动作Mi的累积奖励值;所述设计和初始化动作概率池Pro:Pro=[p1,p2,…,pi,…,pn];其中,pi是动作Mi被选取的概率值,∑pi=1;步骤四中所述动作选择策略如下:4-1.更新动作累积奖励池RMs:其他动作累积奖励不变,当前训练周期对应动作Mi的累积奖励加上本轮奖惩值,即奖惩机制的双重奖励R,得到更新后的动作累积奖励池R′Ms=[R1,…,R£+R,…,Rn];对更新后该动作的累积奖励R′i进行判断并处理:如果R′i>SumR′Ms-R′i,则R′i=SumR′Ms-R′i;4-2.基于更新后的累积奖励池R′Ms,使用softmax分布函数来更新动作的概率,根据各个动作的累积奖励R′i的影响来更新其频率分布,得到新的动作概率池P′ro; P′ro=[p′1,p′2,…,p′n]其中,p′i是更新后的动作Mi的概率,R′i是动作Mi的累积奖励,β是控制分布的参数,用于调整奖惩对概率的影响程度。

全文数据:

权利要求:

百度查询: 广东工业大学 基于奖惩机制和动作策略的加权损失函数更新方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。