买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华东师范大学
摘要:本发明公开了一种基于偏好传递性的人在回路强化学习数据增强方法,其特点是该方法具体包括:每轮人类标注时从强化学习智能体动作序列库中采样动作序列;根据人类对动作序列对的偏好标注构建人类偏好依赖图;将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系等步骤。本发明与现有技术相比可以将人类反馈当中的均等偏好数据转化为偏序偏好数据,较好的解决了先前方法无法根据均等偏好数据优化的问题,同时利用人类偏好依赖图挖掘跨轮次间人类反馈结果之间的联系,能够加快算法的收敛速度,方法具有高度的通用性和模块化特点。
主权项:1.一种基于偏好传递性的人在回路强化学习数据增强方法,其特征在于,该方法包括以下具体步骤:1从强化学习智能体动作序列库中采样动作序列σ;2根据人类对动作序列对的偏好标注构建垮轮次的人类偏好依赖图;3将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系,得到增强后的人类偏好数据;其中:所述步骤2具体包括:2.1:将人在回路强化学习中偏好类型拓展为偏序偏好关系和均等偏好关系,对于动作序列对σ1,σ0的偏序偏好类型包括:动作序列σ1优于动作序列σ0,即σ1>σ0,动作序列σ0优于动作序列σ1,即σ0>σ1,以及均等偏好类型:动作序列σ0与动作序列σ1均等偏好,即2.2:首先随机选取动作序列σ1构成依赖图的初始结点,随后选取另一个动作序列σ0,并与σ1构成动作序列对σ1,σ0交给人类标注偏好信息;若σ1>σ0则在图中添加一条σ1指向σ0的边,如果σ0>σ1则添加一条σ0指向σ1的边,若则将两结点合并为一个结点不添加边;2.3:之后采样到的动作序列σi依次和当前人类偏好图中没有入度的结点对应的动作序列组成动作序列对交给人类标注,并按照2.2中描述的规则将σi加入人类偏好图中;2.4:如果不是第一轮标注,则要把当前轮次人类偏好依赖图中入度为0的结点对应的动作序列和先前轮次构建好的人类偏好依赖图的入度为0的结点对应的动作序列组成动作序列对,并交由人类进行偏好反馈,得到偏好关系后,依据2.2的规则合并当前及先前轮次的人类偏好依赖图。
全文数据:
权利要求:
百度查询: 华东师范大学 一种基于偏好传递性的人在回路强化学习数据增强方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。