买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江大学;杭州高新区(滨江)区块链与数据安全研究院
申请日:2024-12-30
公开(公告)日:2025-01-28
公开(公告)号:CN119378613A
专利技术分类:...生成网络[2023.01]
专利摘要:本发明公开了一种基于语义逻辑的大模型防御方法,通过基于语义逻辑分析和模型学习技术,系统地识别和阻断偏见的混淆效应,从而减少预训练数据中偏见对引导过程的影响,包含一个可解释组成,提供对生成输出与期望方向之间对齐的洞察,增强了引导过程的可解释性,增强了模型的透明度和用户的信任,该方法可能减少了对人工标注和计算资源的依赖,从而提高了资源效率,通过无偏见的引导表示,提高了模型在不同任务和领域中的泛化能力,这与现有技术泛化能力有限的问题形成对比,具有高可扩展性和适应性。可以应用在不同的语言模型中,可深入了解生成的输出与期望方向之间的一致性,从而增强转向过程的可解释性,同时减轻偏见的影响。
专利权项:1.一种基于语义逻辑的大模型防御方法,其特征在于,包括:S1:获得足量的训练文本;S2:将文本输入到Transformer层,得到经过Transformer层中每层计算后的特征图;S3:通过一个线性回归分类器对每层计算后的特征图进行评估,线性回归分类器通过该计算每一个特征图后,均可得到一个向量,所述的向量中的值,表示分类为对应类别的概率,得到若干向量;S4:对若干向量进行排序,从低到高确定哪些层对目标属性最敏感,得到若干干预层;S5:使用一个低秩自适应分解器LoRA来替换若干干预层,得到新的语言模型;S6:使用无偏转述后的数据,训练新的语言模型,得到训练后的语言模型;S7:获得交互文本;S8:对交互文本进行提取表征,得到提取表征后的文本;S9:将提取表征后的文本输入到训练后的语言模型中,得到安全、无偏见的输出。
百度查询: 浙江大学 杭州高新区(滨江)区块链与数据安全研究院 一种基于语义逻辑的大模型防御方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。