基于角色扮演的大语言模型漏洞测试方法和装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州榕数科技有限公司

摘要：本发明提供了一种基于角色扮演的大语言模型漏洞测试方法和装置，针对待测大语言模型收集可靠性测试准则；并调用了ChatGPT的API扮演了四个角色实现自动化对大语言模型的漏洞挖掘。在真实大语言模型上的实验结果表明，该方法具有良好的适用性，能够有效的评估大语言模型的安全性，更新后获得的游戏场景能够有效的使大语言模型偏离预期输出，暴露大语言模型的漏洞，实现高效的、可重复的、可更新的高效测试。

主权项：1.一种基于角色扮演的大语言模型漏洞测试方法，其特征在于，包括以下步骤：1针对待测大语言模型收集可靠性测试准则；2收集M条得分数超过0分的越狱提示，并分别根据8个独立特征拆解成8个独立的越狱事实，并构建8个知识图谱子图；3使用语境提示的方式使待测大语言模型定义成可阅读抽象测试准则的物化器角色，输入为物化器角色的语境提示和抽象测试准则INSERTPOLICYHERE，输出为测试问题Prompt和预期回复Oracle；4使用随机游走算法提取每个知识图谱子图中提取一个边权重最大的子节点，组成越狱事实节点集合；使用语境提示的方式使待测大语言模型定义成游戏场景组织者角色，输入为组织者角色的语境提示和越狱事实节点集合，输出为游戏场景OptimizedScenario；5将游戏场景OptimizedScenario和测试问题Prompt形成新的测试种子，输入到待测大语言模型中得到大语言模型的输出回答Response；使用语境提示的方式使待测大语言模型定义成裁判员角色，输入为裁判员角色的语境提示，输出为预期回复Oracle与大语言模型的输出回答Response之间的相似度得分Score；6当相似度得分Score不小于阈值，使用语境提示的方式使待测大语言模型定义成顾问角色，输入为顾问角色的语境提示和相似度得分Score，输出优化游戏场景的建议Suggestions；随后组织者角色将越狱事实节点集合{factnodes}和优化游戏场景的建议Suggestions相结合，对游戏场景OptimizedScenario进行更新，得到更新后的游戏场景；7利用更新后的游戏场景重复步骤5-步骤6，直到相似度得分Score相似度得分Score小于阈值Tth，实现对大语言模型的漏洞挖掘。

全文数据：

权利要求：

百度查询：杭州榕数科技有限公司基于角色扮演的大语言模型漏洞测试方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：含氟甲醛基的哌啶型阴离子交换膜及其制备方法

下一篇：一种大花海棠染色体加倍的诱导方法

相关技术

含氟甲醛基的哌啶型阴离子交换膜及其制备方法

一种大花海棠染色体加倍的诱导方法

一种拉杆切割打孔集成设备及加工工艺

回环检测方法、装置、电子设备和存储介质

一种光纤光栅生命体征监测装置和方法

一种坐浴盆

一种焊接加热装置

一种市政道路铺砖装置

基于AI的PCB或半导体多工序生产设备组合优化方法

具有处于低速档的分动箱的混合动力的动力总成系统和操作

一种刹车盘保护盖

通过光学衍射改善粒度

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于角色扮演的大语言模型漏洞测试方法和装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务