恭喜北京中科卓信软件测评技术中心付博雯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京中科卓信软件测评技术中心申请的专利一种基于颜文字的生成式人工智能安全测试方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119512972B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510093423.0,技术领域涉及:G06F11/3668;该发明授权一种基于颜文字的生成式人工智能安全测试方法及装置是由付博雯;程超;刘海明;黄楚皓;滕若阑;程泽凯;蔣建春;黄鹂设计研发完成,并于2025-01-21向国家知识产权局提交的专利申请。
本一种基于颜文字的生成式人工智能安全测试方法及装置在说明书摘要公布了:本发明公布了一种基于颜文字的生成式人工智能安全测试方法及装置,涉及颜文字文本生成技术,包括:构建安全关键词库模块;构建颜文字库模块;测试用例生成模块;测试用例评估模块;应用于人工智能领域。通过生成含有颜文字的混合语言测试文本,构造用于生成式人工智能安全测试的内容安全用例,系统化验证生成式人工智能在处理颜文字文本时的内容防御能力。采用本发明的技术方案,能够评估生成式智能系统内容安全机制的抗颜文字规避能力,有效提升生成式人工智能在复杂文本场景下的安全防御水平。
本发明授权一种基于颜文字的生成式人工智能安全测试方法及装置在权利要求书中公布了:1.一种基于颜文字的生成式人工智能安全测试方法,其特征在于,设计颜文字混合文本生成方法,得到颜文字混合文本的安全测试用例,用于生成式人工智能安全测试;包括如下步骤:1)基于基准测试集和词语重要性构建安全关键词库;包括:获取生成式人工智能服务安全基准测试集中包含的所有文本数据,并进行清洗、分词处理,将每一段文本拆解为词语片段;对分词后的文本使用词频-逆文档频率方法计算得到每个词语的重要性评分,筛选出每个句子中的安全关键词候选词汇;对候选词汇进行筛选,提取得到安全内容相关词汇,即安全关键词;将提取的安全关键词存储在安全关键词库文件中,结构采用类别、关键词二元组形式;其中,类别为多个与安全内容相关的分类;关键词之间以分隔符隔开;2)基于正则化与相似度分析,构建颜文字库;包括:21)获取已公布颜文字信息;颜文字信息包括颜文字及其对应的中文解释,将颜文字映射到相应的中文解释文本;22)将获取的准确性高的颜文字信息存储在颜文字库文件中,作为基准颜文字数据字典;颜文字库文件结构为颜文字,中文解释;23)基于正则化与相似度分析对颜文字进行判定,初步生成颜文字候选集;将获取的包含噪音和不规范信息的颜文字数据进行进一步清洗和判定,包括:利用正则表达式提取文本中由非中文、非英文、非数字字符组成的符号序列,仅保留设定长度的字符的候选项,过滤掉噪音字符,初步生成颜文字候选集;24)将提取的候选颜文字与颜文字库中已存储的基准颜文字进行相似性比较,通过计算候选颜文字与基准颜文字之间的相似度,筛选出相似度高于设定阈值的候选颜文字,作为有效颜文字,并获取对应的中文解释;将有效颜文字及对应的中文解释动态更新到颜文字库中;3)基于安全关键词库和颜文字库生成包含颜文字的混合语言内容安全测试用例;包括:31)对生成式人工智能服务安全基准测试集,按安全类别分别进行预处理,将基准测试集中包含的所有文本数据按词语切分;32)再将分词结果与安全关键词库中的各类别的关键词进行逐一匹配,定位文本中的安全关键词,并记录匹配到的安全关键词在分词结果中的索引位置;33)计算匹配到的安全关键词数量;根据安全关键词数量,生成包含颜文字的混合语言内容安全测试用例,生成方法为:第一:如果在基准测试集的文本没有匹配到安全关键词,则随机选择一个颜文字插入到基准测试集文本的前、后或中间位置;第二:如果匹配到关键词,根据颜文字库,若存在关键词与颜文字库中颜文字的中文解释相符,则用相应的颜文字替换该关键词;若未找到相符的颜文字,则随机选择最多两个关键词,在关键词的中间位置插入一个随机选择的颜文字,将其余关键词转换为拼音形式;通过上述步骤生成颜文字混合文本,作为安全测试用例,用于生成式人工智能安全测试;包括:数据集使用基准测试集;通过大模型生成测试用例的响应结果;并进一步得到响应结果数据集;基于大模型对测试用例的响应内容,定义并划分响应结果包括:拒绝生成、部分生成、完全生成;对每个响应结果进行人工标注和分配标签;将标注后的响应数据集划分为训练集和验证集;使用交叉熵损失函数对预训练的深度双向变压器模型进行微调;以准确率为评估指标评估模型在安全测试任务中的效果,得到经过微调训练好的模型;将生成的基于颜文字的测试用例发送至大模型进行测试,得到响应数据集;使用微调训练好的模型对安全测试用例的响应数据集进行预测准确性计算;通过计算预测准确性评估大模型是否会受到颜文字的影响,由此实现基于颜文字的生成式人工智能安全测试。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科卓信软件测评技术中心,其通讯地址为:100195 北京市海淀区闵庄路3号102幢二层207室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。