买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
摘要:本发明涉及文本机器翻译技术领域,特别是指一种基于多语言预训练大模型的伪语言族聚类方法及装置,方法包括:建立共享语言池;基于多语言预训练大模型,计算共享语言池中的语言对的费舍信息矩阵,获得共享语言池中的语言对的表征结果;根据表征结果对语言对之间的相似度进行计算,获得相似度值;根据相似度值,对语言对之间的相似性进行排序,根据预设边界值选择符合边界值的辅助语言对,完成基于多语言预训练大模型的伪语言族聚类。本发明使用多语言预训练本身的能力对语言对进行表征,更有效地选择并聚类辅助语言并提高其在不同模型和数据集之间的泛化性,最终提高低资源语言对在多语言协同训练下的翻译质量。
主权项:1.一种基于多语言预训练大模型的伪语言族聚类方法,其特征在于,所述方法包括:S1、建立共享语言池;S2、基于多语言预训练大模型,计算所述共享语言池中的语言对的费舍信息矩阵,获得所述共享语言池中的语言对的表征结果;所述步骤S2中,基于多语言预训练大模型,计算所述共享语言池中的语言对的费舍信息矩阵,获得所述共享语言池中的语言对的表征结果,包括:获取与所述共享语言池中语言对对应的平行语料库,将所述平行语料库中的数据均等化分为j个小批量数据集;将所述小批量数据集依次输入多语言预训练大模型,输出每个所述小批量数据集的费舍信息矩阵;一个输入轮次后计算每个小批量数据集的平均费舍信息矩阵,将所述平均费舍信息矩阵作为估计值,获得每个小批量数据集的费舍信息权重;根据所述费舍信息权重,对所述共享语言池中对应语言对的分布进行表征;S3、根据所述表征结果对所述语言对之间的相似度进行计算,获得相似度值;所述步骤S3中,根据所述表征结果对所述语言对之间的相似度进行计算,获得相似度值,包括:获取表征结果;选定目标语言对;采用均方误差法,计算共享语言池中的语言对与所述目标语言对之间的距离,距离与相近,相似度越高;或选定目标语言对;使用费舍信息矩阵,计算共享语言池中的语言对与所述目标语言对的KL散度,获得共享语言池中的语言对之间的距离,距离与相近,相似度越高;或选定目标语言对;选择前K的参数并为其分配值1,而其余参数分配值0来创建费舍信息掩码;根据同时激活的参数数量和目标方向上激活的参数量,计算共享语言池中的语言对与所述目标语言对之间的距离,距离与相近,相似度越高;S4、根据所述相似度值,对所述语言对之间的相似性进行排序,根据预设边界值选择符合所述边界值的辅助语言对,完成基于多语言预训练大模型的伪语言族聚类;所述步骤S4中,根据所述相似度值,对语言对之间的相似性进行排序,根据预设边界值选择符合所述边界值的辅助语言对,完成基于多语言预训练大模型的伪语言族聚类,包括:遍历计算所有语言对之间的相似度;根据语言对之间的相似度进行降序排列;预设初始搜索半径,根据所述初始搜索半径划定边界范围;将所述边界范围内最接近的语言对整合到辅助语言名单中;根据最新添加的语言对与目标语言对的相似性,更新搜索半径;重复更新搜索半径,直至不再扩展新的语言对为止,获得聚类后的伪语言族,完成基于多语言预训练大模型的伪语言族聚类。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于多语言预训练大模型的伪语言族聚类方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。