买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:安徽大学
摘要:本发明公开了一种基于强化学习的自适应样本难度的模型早退方法。包括以下步骤:S1,构建在n层BERT‑Layer中均引入一个内部分类器的BERT模型;S2,将早退方法转化为强化学习问题,在每一层中引入强化学习策略网络;S3,将样本实例通过分词器进行处理,转换模型能理解的输入;S4,模型实现对输入文本的复杂表示和处理;S5,将最终得到的当前层的隐藏层向量作为策略网络的输入得到给定状态下采取行动的概率;S6,对每一个层的动作进行求奖励,并且通过REINFORCE算法,通过梯度下降的方式,将累计得到的奖励最大化;S7,依据以上方式进行训练,直到策略网络拟合。本发明和基础的早退机制方法相比,有更好的早退效果。
主权项:1.一种基于强化学习的自适应样本难度的模型早退方法,其特征在于,包括以下步骤:S1,构建在n层BERT-Layer中均引入一个内部分类器Classifier的BERT模型;S2,将早退方法转化为强化学习问题,在n层BERT-Layer的每一层中,引入强化学习策略网络PolicyNetwork;S3,将样本实例通过分词器进行处理,转换步骤S1构建的模型能理解的输入inputs;S4,输入Inputs将经历第一层BERT-Layer,每一层BERT-Layer中包含多头注意力机制Multi-HeadSelf-Attention、前馈神经网络层Feed-ForwardNeuralNetwork,FFN、残差连接ResidualConnection、层归一化LayerNormalization;通过以上结构,模型实现对输入文本的复杂表示和处理,其中,多头注意力机制允许模型捕捉长距离依赖关系,前馈神经网络层提供了进一步的非线性变换能力,而残差连接和层归一化则有助于稳定和加速深层网络的训练过程;S5,将最终得到的当前层的隐藏层向量HiddenState作为策略网络的输入得到给定状态下采取行动的概率;S6,对每一个层的动作进行求奖励,并且通过REINFORCE算法,通过梯度上升的方式,将累计得到的奖励最大化;S7,依据以上方式进行训练,直到策略网络拟合。
全文数据:
权利要求:
百度查询: 安徽大学 一种基于强化学习的自适应样本难度的模型早退方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。