厦门理工学院张锴获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门理工学院申请的专利基于差分隐私机制的大模型训练方法、介质及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119494408B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510066183.5,技术领域涉及:G06N5/04;该发明授权基于差分隐私机制的大模型训练方法、介质及系统是由张锴;洪朝群;王大寒;江惠琴设计研发完成,并于2025-01-16向国家知识产权局提交的专利申请。
本基于差分隐私机制的大模型训练方法、介质及系统在说明书摘要公布了:本发明公开了一种基于差分隐私机制的大模型训练方法、介质和系统,其中方法包括:S101,获取历史数据,并进行预处理,以及对预处理后的历史数据进行分组和标注,以形成训练数据集;S102,初始化大语言模型参数;S103,基于训练数据集进行训练,并计算梯度;S104,进行梯度加噪,以得到加噪梯度,并基于加噪梯度计算对应的综合不公平性指标值;S105,判断综合不公平性指标值是否处于预设取值范围内;S106,如果综合不公平指标值处于预设取值范围内,则判断当前大语言模型是否满足训练要求;如果是,则将当前大语言模型作为最终模型;如果否,则返回步骤S103。能够实现对用户隐私进行有效保护,同时,避免因使用差分隐私机制而导致的不公平现象的产生。
本发明授权基于差分隐私机制的大模型训练方法、介质及系统在权利要求书中公布了:1.一种基于差分隐私机制的大模型训练方法,其特征在于,包括以下步骤: S101,获取文本历史数据,并对所述文本历史数据进行预处理,以及对预处理后的文本历史数据进行分组和标注,以形成训练数据集; S102,初始化大语言模型参数; S103,基于训练数据集对大语言模型进行训练,并计算损失函数对模型参数的梯度; S104,进行梯度加噪,以得到加噪梯度,并基于所述加噪梯度计算对应的综合不公平性指标值; S105,判断所述综合不公平性指标值是否处于预设取值范围内; S106,如果所述综合不公平指标值处于预设取值范围内,则判断当前大语言模型是否满足训练要求;如果是,则将当前大语言模型作为最终模型;如果否,则返回步骤S103; 其中,进行梯度加噪,以得到加噪梯度,并基于所述加噪梯度计算对应的不公平性指标值,包括: 对所述梯度进行剪裁,并生成初始噪声,以及根据所述初始噪声和剪裁后的梯度计算加噪梯度; 基于所述加噪梯度计算初始不公平性指标值,并根据多次训练得到的初始不公平性指标值计算对应的平均不公平性指标值; 引入时间衰减因子对所述平均不公平性指标值进行衰减,并对衰减后的平均不公平性指标值进行加权平均计算,以得到综合不公平性指标值; 所述初始不公平性指标值通过以下公式计算: ; 其中,表示初始不公平性指标值,表示惩罚系数,表示数据群体的噪声,表示群体的噪声,表示符号函数,用于表示噪声的方向,表示数据群体对应的加噪梯度,表示数据群体对应的加噪梯度; 所述平均不公平性指标通过以下公式计算: ; 其中,表示平均不公平性指标,表示迭代训练的总次数,表示第次公平性计算,以多次计算求平均的方式减少随机误差的产生; 通过以下公式对所述平均不公平性指标值进行衰减: ; 其中,表示衰减后的平均不公平性指标值,表示当前时间与第次训练时间之间的时间间隔; 通过以下公式对衰减后的平均不公平性指标值进行加权平均: ; ; 其中,表示加权平均后的不公平性指标值,表示群体和群体之间的不公平性程度在整个数据集内的比重,表示综合不公平性指标值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门理工学院,其通讯地址为:361000 福建省厦门市集美区理工路600号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。