Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于联邦学习的文本纠错方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明属于文本纠错技术领域,提供一种基于联邦学习的文本纠错方法和系统。该方法包括:构建与各参与方相对应的语料库,形成相对应的训练集;对预训练模型进行微调,以获取微调后的初始模型参数,得到初始文本纠错模型;对微调后的初始模型参数进行加密得到加密后的初始模型参数;计算各参与方的语料库或场景任务的相似性,筛选待聚合处理的模型参数,进行安全聚合,得到相应的聚合模型参数;对聚合模型参数进行解密,进一步更新初始文本纠错模型;进行多轮联邦学习,得到最优文本纠错模型,以对待纠错文本进行纠错。本发明采用联邦学习方法让不同参与方在不共享原始数据的情况下,充分利用各方的专业语料,得到更精确的文本纠错模型。

主权项:1.一种基于联邦学习的文本纠错方法,其特征在于,包括:基于多参与方的专有语料,构建与各参与方相对应的语料库,并收集包含敏感信息的文本数据,进一步进行数据标注来构建训练样本对,以形成与各参与方相对应的训练集;各参与方接收处理中心所下发的模型结构和模型参数,并使用各自的训练集对预训练模型进行微调,以获取微调后的初始模型参数,得到初始文本纠错模型;采用Paillier同态加密算法,对微调后的初始模型参数进行加密得到加密后的初始模型参数,再发送给处理中心;对以下初始模型参数进行加密:文本纠错模型的编码层中BiGRU的权重矩阵和偏执向量,解码层中GRU以及注意力网络的权重矩阵和偏执向量;所述对微调后的初始模型参数进行加密,具体包括以下步骤:采用梅森素数生成算法,使用十六进制保存生成的素数,并指定素数位数,以得到两个不相等的第一安全素数p和第二安全素数q,并进一步计算相关参数n、λ,n表示第一安全素数p和第二安全素数素数q的乘积,λ表示第一安全素数p和第二安全素数q进行指定计算之后的最小公倍数;再由处理中心选择一个随机数m组成加密算法的公钥(n,m),其中0mn2,以计算各参与方的私钥(λ,),其中,;各参与方根据处理中心生成的公钥(n,m),设置一个计算参数r,r是正整数,且满足r小于n,采用以下表达式,计算加密后的模型参数: ;其中,表加密之后的模型参数;表示加密之前的模型参数,n表示第一安全素数p和第二安全素数q的乘积;r为计算参数,用于增强加密强度,可取0~n,且rn;m表示随机数,m为正整数,且mn2;计算各参与方的语料库或场景任务的相似性,以筛选待聚合处理的模型参数,并进行安全聚合,得到相应的聚合模型参数;对所述聚合模型参数进行解密,并使用解密后的模型参数更新初始文本纠错模型,采用测试集进行测试,并继续进行模型训练,在达到迭代预定次数时,记录在测试集上的准确率,并基于准确率确定要保存的文本纠错模型;各参与方基于所保存的文本纠错模型,进行多轮联邦学习,当达到限定条件时,则停止联邦学习过程,以得到最优文本纠错模型;采用最优文本纠错模型对待纠错文本进行纠错,得到纠正后的文本。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司信息科学研究院 一种基于联邦学习的文本纠错方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。