买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州市北京航空航天大学国际创新研究院(北京航空航天大学国际创新学院)
摘要:一种防御型AIGC对抗智能体及其训练方法,属于人工智能技术领域。智能体中,强化学习模块通过观测策略网络得取一条轨迹;解耦学习模块根据所述轨迹生成反事实轨迹,并进行解耦学习得到奖励函数,根据奖励函数算出奖励,根据奖励生成反事实策略网络的参数;对抗学习模块中,控制器根据反事实策略网络控制智能体生成多个反向辩论动作,控制观测策略网络生成多个正向辩论动作,判别器根据多个反向辩论动作的转移状态和多个正向辩论动作的转移状态判断正向辩论动作和反向辩论动作的真伪,将真的辩论动作、状态、下一个状态及奖励作为一个四元组放入缓冲池中。本发明能够能够识别语境,使得智能体产生更灵活的辩论策略。
主权项:1.一种基于防御型AIGC对抗智能体的系统,其特征在于,包括强化学习模块、逆强化学习模块、缓冲池和对抗学习模块,其中,强化学习模块包括观测策略网络,通过观测策略网络获取一条轨迹,其中,at为观测策略网络在时间t的正向辩论动作,st为观测策略网络在时间t的正向辩论状态,θ为观测策略网络的神经网络的参数,t=1,2,…,n;逆强化学习模块包括反事实轨迹生成模块、解耦学习模块和反事实策略网络,其中,反事实轨迹生成模块根据所述轨迹生成反事实轨迹;解耦学习模块根据反事实轨迹生成奖励函数,为奖励函数的参数;根据奖励函数计算出奖励,根据奖励生成反事实策略网络的神经网络的参数,为反事实策略在时间t时的反向辩论动作,为反事实策略在时间t的反向辩论状态;对抗学习模块包括控制器和判别器,控制器控制反事实策略网络生成多个反向辩论动作,控制观测策略网络生成多个正向辩论动作,判别器分别根据多个反向辩论动作的转移状态和多个正向辩论动作的转移状态判断正向辩论动作和反向辩论动作的真伪,将真的辩论动作、辩论状态、奖励及辩论动作的转移状态作为一个四元组放入缓冲池中;辩论状态包括输入到神经网络输入端的用于表示辨论薄弱点的L个词向量xl和表述表示辨论薄弱点的L个词向量的语境向量up,l=1,…,L;p=1,…,P;L和P均为大于或者等于1的整数;反事实轨迹中的反向辨论动作包括:攻击立论、攻击论证和攻击论据。
全文数据:
权利要求:
百度查询: 杭州市北京航空航天大学国际创新研究院(北京航空航天大学国际创新学院) 一种防御型AIGC对抗智能体及其训练方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。