一种基于生成式回报模型和大语言模型的语句交互方法、电子设备及计算机可读存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工业大学

摘要：本发明提出一种基于生成式回报模型和大语言模型的语句交互方法、电子设备及计算机可读存储介质，属于语句交互技术领域。包括：步骤一、使用大语言模型LLM1生成k个候选句子并构建生成式回报模型，构建生成式回报模型的方法是：使用生成式模型拟合特定环境下的某一行为的概率分布；对每一时刻行为的概率分布取对数后中心化，得到行为对应的回报。步骤二、以大语言模型LLM2作为虚拟对手，对每个候选句子进行蒙特卡洛树搜索获取动作价值函数；步骤三、将动作价值函数最大的候选句子作为结果输出。本发明可以让LLM在新的环境中自我学习，不用再有监督地微调；还可以让LLM生成的句子更有目的性。

主权项：1.一种基于生成式回报模型和大语言模型的语句交互方法，其特征在于，包括：步骤一、使用大语言模型LLM1生成k个候选句子并构建生成式回报模型；步骤二、以大语言模型LLM2作为虚拟对手，对每个候选句子进行蒙特卡洛树搜索获取动作价值函数；步骤三、将动作价值函数最大的候选句子作为结果输出；构建生成式回报模型的方法是：使用生成式模型拟合特定环境下的某一行为的概率分布；对每一时刻行为的概率分布取对数后中心化，得到行为对应的回报；对每一时刻行为的概率分布取对数后中心化，得到行为对应的回报方法是：r＝logπa-Eπa[logπa]其中，πa表示生成式模型生成的行为概率，Eπa[·]表示数学期望算子，log表示对数函数；步骤二具体为：步骤二一、使用LLM1计算候选句子a的概率qa；步骤二二、LLM1计算候选句子a对应的回报r：步骤二三、将候选句子a输入至LLM2模型，得到候选句子对应的回答S；步骤二四、基于候选句子对应的回答S，得到LLM1下一时刻生成的新的候选句子a’，将候选句子a替换为新的候选句子a’；步骤二五、重复步骤二一至步骤二四，将第i次循环由步骤二二计算的候选句子a对应的回报r，记为ri，循环N次，得到N个ri；步骤二六、计算N个ri的折扣累计回报u：u＝∑iγiri其中，ri是第i次循环得到的候选句子对应的回报，γi是折扣因子γ的i次幂，i＝0,1,...N-1；步骤二七、重复步骤二一至步骤二六得到多个折扣累计回报，将多个折扣累计回报的均值作为候选句子的动作价值函数。

全文数据：

权利要求：

百度查询：哈尔滨工业大学一种基于生成式回报模型和大语言模型的语句交互方法、电子设备及计算机可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：路径规划方法、系统、设备及计算机可读存储介质

下一篇：印制电路板、器件焊接检测方法、装置及电子设备

相关技术

路径规划方法、系统、设备及计算机可读存储介质

印制电路板、器件焊接检测方法、装置及电子设备

一种动态自由视点图像合成方法、系统、设备及存储介质

一种多光子显微镜中光亮强度的自动调节装置

内走线鱼竿的摇柄隐藏结构

为牵引电池充电的充电电路和方法、电动车辆

多通阀、热管理系统和车辆

马达

一种粗氨气净化及制取液氨的装置及方法

适用于不同功能空间声场控制的音频处理系统及方法

一种热网加热器换热管泄漏在线定位系统及方法

储能变流器及储能系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于生成式回报模型和大语言模型的语句交互方法、电子设备及计算机可读存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务