基于遗传算法的发现大语言模型冒犯性回复方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学

摘要：本发明提供了一种基于遗传算法的发现大语言模型冒犯性回复方法，从指令数据集和有害提示数据集中随机抽取一部分内容，通过迭代过程，模拟遗传算法的搜索中能引起语言模型危险回复的提示词，通过使用语言模型修改有害提示数据集中的有害提示，通过规则化的函数执行提示词交叉操作，评估文本中的冒犯程度。基于本发明的技术方案，能够发现大型语言模型可能产生的大量冒犯性回复的提示。通过对识别出的引发危险回复的提示进行有针对性的训练，降低语言模型产生冒犯性回复的可能性，从而提高其整体安全性。

主权项：1.一种基于遗传算法的发现大语言模型冒犯性回复方法，语言模型包括指令数据集和有害提示数据集，其特征在于，包括以下步骤：S1.从指令数据集和有害提示数据集中随机抽取一部分内容，形成“初始种群”；S2.通过迭代过程，模拟遗传算法的搜索中能引起语言模型危险回复的提示词，迭代过程中包括变异、交叉、评估、选择操作；S3.使用语言模型修改有害提示数据集中的有害提示，模拟遗传算法中的变异操作以生成变异提示；S4.通过规则化的函数执行提示词交叉操作，将“指令”和有害提示进行交叉，从而生成一个新的交叉提示；S5.将经过变异、交叉操作后的提示词输入待检测的语言模型，得到语言模型的回复；S6.将语言模型的回复输入冒犯性语言评估模块，用于评估文本中的冒犯程度；S7.保留评估模块评估更高冒犯性得分响应的提示，形成新一代的种群；通过重复迭代过程，识别出能引发语言模型潜在攻击性响应的提示。

全文数据：

权利要求：

百度查询：电子科技大学基于遗传算法的发现大语言模型冒犯性回复方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种聚氨酯内胎成型的脱模装置

下一篇：一种磁吸式取料机械手

相关技术

一种聚氨酯内胎成型的脱模装置

一种磁吸式取料机械手

一种基于InSAR数据和多诱发因子的形变智能预测方法

一种用于智慧视频生成的分镜数据分布式处理方法及系统

显示面板及其显示方法、显示装置

基于传感器网络的输油泵状态实时监测系统及方法

显示面板及显示面板的制作方法

一种改进型立式举升试验台

晶体管、存储单元、存储结构及晶体管的制备方法

一种可以加载任意弯矩的多自由度加载机构

用于运动发酵单胞菌表面展示的蛋白

电气工作器具

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于遗传算法的发现大语言模型冒犯性回复方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务