首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大语言模型的网页导航智能体的训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京智谱华章科技有限公司

摘要:本发明涉及一种基于大语言模型的网页导航智能体的训练方法,属于网页导航技术领域。训练方法包括:构建网页操作数据集;所述网页操作数据集包括网页识别任务数据集、简单任务操作数据集和复杂任务操作数据集;将所述网页操作数据集输入网页导航智能体,对所述大语言模型进行分步训练,以获得具备网页浏览与操作和任务分解功能的所述网页导航智能体;分步训练包括:课程学习,以使所述网页导航智能体获得浏览网页和独立执行操作的能力;强化学习,以使所述网页导航智能体获得从自身错误学习以减轻幻觉的能力;拒绝采样微调,以使网页导航智能体成为特定领域的专家。本发明实现了通过网页导航智能体和网页进行复杂的交互操作。

主权项:1.一种基于大语言模型的网页导航智能体的训练方法,其特征在于,包括:构建网页操作数据集;所述网页操作数据集包括网页识别任务数据集、简单任务操作数据集和复杂任务操作数据集;构建所述网页识别任务数据集包括:收集中文和英文主流网站的url数据;通过HTML解析器识别每个所述url数据对应的网页中可操作的组件,并记录相关信息;通过重新排列和简化组件树处理所述相关信息,以生成简化的HTML;所述复杂任务操作数据集中的每个数据均包括人工标注的复杂网页浏览任务、完成任务的操作步骤及意图和参考答案;将所述网页操作数据集输入所述网页导航智能体,对所述大语言模型进行分步训练,以获得具备网页浏览与操作和任务分解功能的所述网页导航智能体;所述分步训练包括:课程学习,以使所述网页导航智能体获得浏览网页和根据指令独立执行操作的能力,包括:I融合所述网页识别任务数据集和所述简单任务操作数据集,并通过监督微调技术进行训练,以使所述大语言模型学习所述url数据对应的网页的结构和所述可操作的组件的功能,并根据用户指令执行相应的操作;II使用所述复杂任务操作数据集,并通过监督微调技术进行训练,以使所述大语言模型学习将复杂任务分解为子任务,并根据当前的网页以一定操作步骤,完成各个子任务;损失函数表示如下: 其中,πθ表示可训练策略,E表示期望值,x表示输入,y表示输出,D表示数据集;强化学习,以使所述网页导航智能体获得从自身错误学习以减轻幻觉的能力,包括:I使用经过所述课程学习的模型对所述复杂任务操作数据集中的样本进行n次采样,并根据以下两个标准保留样本:在所有迭代中,选择模型完成了1~n-1次任务的样本;保留不同的错误操作,并去重;II根据样本的输出和所述参考答案构造具有正对和负对的对比数据;III采用直接偏好优化方法训练,使所述大语言模型从错误中吸取教训,以减轻幻觉;损失函数表示如下: LTotal=λ·LDPO+LSFT其中,LDPO表示直接偏好优化损失,πθ表示可训练策略,πref表示参考策略,yw表示正例输出,yl表示负例输出,σ表示sigmoid函数,β表示温度超参,LSFT表示监督微调损失,LTotal表示总损失,λ表示系数;拒绝采样微调,以使网页导航智能体成为特定领域的专家。

全文数据:

权利要求:

百度查询: 北京智谱华章科技有限公司 一种基于大语言模型的网页导航智能体的训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。