北京衔远有限公司;北京衔远科技有限公司谢树雷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京衔远有限公司;北京衔远科技有限公司申请的专利生成任务执行结果的方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120407123B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510787865.5,技术领域涉及:G06F9/48;该发明授权生成任务执行结果的方法、装置、设备及介质是由谢树雷;田庆祥设计研发完成,并于2025-06-13向国家知识产权局提交的专利申请。
本生成任务执行结果的方法、装置、设备及介质在说明书摘要公布了:本申请涉及人工智能技术领域,提供了一种生成任务执行结果的方法、装置、设备及介质。该方法通过基于任务描述确定奖励评价智能体集合,为集合中每个奖励评价智能体确定权重;使用预训练策略模型基于任务描述得到至少一个采样结果,利用各奖励评价智能体分别对每一个采样结果进行评价,并基于各奖励评价智能体的权重及评价结果确定策略模型奖励值,基于该奖励值训练策略模型,最后使用训练好的策略模型确定任务执行结果,实现了为非确定性任务自动、准确匹配多个合适的奖励评价智能体,并使用该多个奖励评价智能体联合训练策略模型以提高策略模型的评价准确度,进而得到更符合任务描述的任务执行结果,提升了用户体验。
本发明授权生成任务执行结果的方法、装置、设备及介质在权利要求书中公布了:1.一种基于策略模型生成任务执行结果的方法,其特征在于,包括: 获取任务描述,所述任务的执行结果的评价标准随评价条件变化而变化; 基于所述任务描述确定奖励评价智能体集合,以及所述奖励评价智能体集合中各奖励评价智能体的权重; 将所述任务描述输入预训练策略模型,得到至少一个采样结果; 使用各奖励评价智能体分别对每一个采样结果进行评价,并基于各奖励评价智能体的权重及评价结果确定各采样结果对应的策略模型奖励值; 基于所述奖励值训练所述预训练策略模型,得到训练后的策略模型; 使用所述训练后的策略模型,在所述至少一个采样结果中确定任务执行结果; 基于所述任务描述确定奖励评价智能体集合,包括: 对所述任务描述进行场景解析,得到包括任务领域、任务受众、任务目标对象中至少一项的任务的场景信息; 对所述任务描述进行目标解析,得到包括宣传策划、用户引流、培训中至少一项的任务目标; 基于所述场景信息和所述任务目标确定任务评价角色; 为每一个任务评价角色确定一个奖励评价智能体,得到所述奖励评价智能体集合; 基于所述任务描述确定各奖励评价智能体的权重,包括: 至少基于所述任务描述中的任务目标确定各任务评价角色的重要性; 基于所述任务评价角色的重要性确定本奖励评价智能体的权重,各奖励评价智能体的权重之和为1; 基于各奖励评价智能体的权重及评价结果确定各采样结果对应的策略模型奖励值,包括: 针对每一个采样结果,对各奖励评价智能体的评价结果加权求和,得到评价结果的加权和; 响应于确定所述加权和大于第二取值且小于第一取值,丢弃本采样结果; 响应于确定被丢弃的采样结果数量大于第一预设数量阈值,统计第一评价结果分布情况,并基于所述第一评价结果分布情况修正各奖励评价智能体的权重,所述第一评价结果分布情况为各奖励评价智能体对被丢弃的采样结果的结果分布情况; 响应于确定加权和大于或者等于第一取值的采样结果的数量小于第二预设数量阈值,或者加权和小于或者等于第二取值的采样结果的数量大于第三预设数量阈值,统计第二评价结果分布情况,并基于所述第二评价结果分布情况更新所述奖励评价智能体集合中的至少一个奖励评价智能体,所述第二评价结果分布情况为各奖励评价智能体的评价结果分布情况。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京衔远有限公司;北京衔远科技有限公司,其通讯地址为:100080 北京市海淀区学院路51号首享科技大厦第三层306室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励