首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于联邦学习的文本纠错方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司信息科学研究院

摘要:本发明属于文本纠错技术领域,提供一种基于联邦学习的文本纠错方法和系统。该方法包括:构建与各参与方相对应的语料库,形成相对应的训练集;对预训练模型进行微调,以获取微调后的初始模型参数,得到初始文本纠错模型;对微调后的初始模型参数进行加密得到加密后的初始模型参数;计算各参与方的语料库或场景任务的相似性,筛选待聚合处理的模型参数,进行安全聚合,得到相应的聚合模型参数;对聚合模型参数进行解密,进一步更新初始文本纠错模型;进行多轮联邦学习,得到最优文本纠错模型,以对待纠错文本进行纠错。本发明采用联邦学习方法让不同参与方在不共享原始数据的情况下,充分利用各方的专业语料,得到更精确的文本纠错模型。

主权项:1.一种基于联邦学习的文本纠错方法,其特征在于,包括:基于多参与方的专有语料,构建与各参与方相对应的语料库,并收集包含敏感信息的文本数据,进一步进行数据标注来构建训练样本对,以形成与各参与方相对应的训练集;各参与方接收处理中心所下发的模型结构和模型参数,并使用各自的训练集对预训练模型进行微调,以获取微调后的初始模型参数,得到初始文本纠错模型;采用Paillier同态加密算法,对微调后的初始模型参数进行加密得到加密后的初始模型参数,再发送给处理中心;计算各参与方的语料库或场景任务的相似性,以筛选待聚合处理的模型参数,并进行安全聚合,得到相应的聚合模型参数;对所述聚合模型参数进行解密,并使用解密后的模型参数更新初始文本纠错模型,采用测试集进行测试,并继续进行模型训练,在达到迭代预定次数时,记录在测试集上的准确率,并基于准确率确定要保存的文本纠错模型;各参与方基于所保存的文本纠错模型,进行多轮联邦学习,当达到限定条件时,则停止联邦学习过程,以得到最优文本纠错模型;采用最优文本纠错模型对待纠错文本进行纠错,得到纠正后的文本。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司信息科学研究院 一种基于联邦学习的文本纠错方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。