首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于角色扮演的大语言模型漏洞测试方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州榕数科技有限公司

摘要:本发明提供了一种基于角色扮演的大语言模型漏洞测试方法和装置,针对待测大语言模型收集可靠性测试准则;并调用了ChatGPT的API扮演了四个角色实现自动化对大语言模型的漏洞挖掘。在真实大语言模型上的实验结果表明,该方法具有良好的适用性,能够有效的评估大语言模型的安全性,更新后获得的游戏场景能够有效的使大语言模型偏离预期输出,暴露大语言模型的漏洞,实现高效的、可重复的、可更新的高效测试。

主权项:1.一种基于角色扮演的大语言模型漏洞测试方法,其特征在于,包括以下步骤:1针对待测大语言模型收集可靠性测试准则;2收集M条得分数超过0分的越狱提示,并分别根据8个独立特征拆解成8个独立的越狱事实,并构建8个知识图谱子图;3使用语境提示的方式使待测大语言模型定义成可阅读抽象测试准则的物化器角色,输入为物化器角色的语境提示和抽象测试准则INSERTPOLICYHERE,输出为测试问题Prompt和预期回复Oracle;4使用随机游走算法提取每个知识图谱子图中提取一个边权重最大的子节点,组成越狱事实节点集合;使用语境提示的方式使待测大语言模型定义成游戏场景组织者角色,输入为组织者角色的语境提示和越狱事实节点集合,输出为游戏场景OptimizedScenario;5将游戏场景OptimizedScenario和测试问题Prompt形成新的测试种子,输入到待测大语言模型中得到大语言模型的输出回答Response;使用语境提示的方式使待测大语言模型定义成裁判员角色,输入为裁判员角色的语境提示,输出为预期回复Oracle与大语言模型的输出回答Response之间的相似度得分Score;6当相似度得分Score不小于阈值,使用语境提示的方式使待测大语言模型定义成顾问角色,输入为顾问角色的语境提示和相似度得分Score,输出优化游戏场景的建议Suggestions;随后组织者角色将越狱事实节点集合{factnodes}和优化游戏场景的建议Suggestions相结合,对游戏场景OptimizedScenario进行更新,得到更新后的游戏场景;7利用更新后的游戏场景重复步骤5-步骤6,直到相似度得分Score相似度得分Score小于阈值Tth,实现对大语言模型的漏洞挖掘。

全文数据:

权利要求:

百度查询: 杭州榕数科技有限公司 基于角色扮演的大语言模型漏洞测试方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。