基于军事文档和回答相似度的强化学习训练方法及系统

导航：龙图腾网> 最新专利技术> 基于军事文档和回答相似度的强化学习训练方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本申请提供一种基于军事文档和回答相似度的强化学习训练方法及系统。方法包括：获取参考资料，利用强化学习模型从参考资料中自动提取问题，将问题和参考资料组成样本对，作为训练数据；将问题和参考资料拼接作为强化学习模型的输入，生成模型回答；计算模型回答与参考资料的相似度；基于相似度，评估模型回答对参考资料的忠诚度，得到忠诚度奖励；计算强化学习模型中策略网络的策略损失和价值网络的价值损失；利用损失函数对策略网络和价值网络的网络参数的梯度进行迭代，以更新网络参数。本申请可免去人工标注，有效降低了训练成本，基于相似度奖励，使得模型回答能更好地遵循参考资料，从而提高模型训练效率和质量。

主权项：1.一种基于军事文档和回答相似度的强化学习训练方法，其特征在于，包括：获取参考资料，利用强化学习模型从所述参考资料中自动提取问题，将所述问题和所述参考资料组成样本对，作为训练数据；将所述问题和所述参考资料拼接作为所述强化学习模型的输入，生成模型回答；计算所述模型回答与所述参考资料的相似度；基于所述相似度，评估所述模型回答对所述参考资料的忠诚度，得到忠诚度奖励；计算所述强化学习模型中策略网络的策略损失和价值网络的价值损失；利用损失函数对所述策略网络和所述价值网络的网络参数的梯度进行迭代，以更新所述网络参数。

全文数据：

权利要求：

百度查询：中科世通亨奇(北京)科技有限公司基于军事文档和回答相似度的强化学习训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种PE管生产韧性检测设备

下一篇：一种可靠性高的多芯高储能薄膜电容器

相关技术

一种PE管生产韧性检测设备

一种可靠性高的多芯高储能薄膜电容器

一种多旋翼无人机的便捷拆卸式机臂

一种蓄电池安装架

一种耐老化物流集装箱密封条

一种儿童心血管数据集成及智能归档系统

一种无土栽培排水槽的支撑调节支架

湿法分级进料分配器

一种宠物兽医用雾化治疗箱

一种立式多轴多工位针阀体中孔座面大端面磨床

表壳装配结构和手表

北美型猪繁殖与呼吸综合征病毒囊膜主要糖蛋白GP5的保守中和表位QT7、核酸分子、表达载体、中和抗体及其应用

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于军事文档和回答相似度的强化学习训练方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务