买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
摘要:本发明涉及机器翻译领域,特别是指一种基于示例感知的机器翻译大语言模型的翻译方法及装置,方法包括:构造句子级感知示例以及文档级感知示例;根据句子级感知示例、文档级感知示例构造的示例感知训练数据,根据训练数据以及低秩适应LoRA微调技术,得到训练好的机器翻译大语言模型;构造领域翻译示例以及文档级翻译示例;根据领域翻译示例以及文档级翻译示例,对训练好的机器翻译大语言模型进行优化,得到构建好的示例感知能力提升的机器翻译大语言模型,进而得到翻译结果。本发明不仅能够为特定领域翻译和文档级翻译等特定需求提供定制化解决方案,还能够在不牺牲翻译质量的前提下,显著提高翻译效率和性能。
主权项:1.一种基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述方法包括:S1、获取待翻译的数据;S2、将所述数据输入到构建好的示例感知能力提升的机器翻译大语言模型;S3、根据所述数据以及示例感知能力提升的机器翻译大语言模型,得到翻译结果;其中,所述示例感知能力提升的机器翻译大语言模型的构建过程,包括:S21、构造句子级感知示例以及文档级感知示例;S22、根据所述句子级感知示例以及文档级感知示例,构造示例感知训练数据;根据所述示例感知训练数据,通过低秩适应LoRA微调技术,得到训练好的机器翻译大语言模型;S23、构造领域翻译示例以及文档级翻译示例;S24、根据所述领域翻译示例以及文档级翻译示例,对所述训练好的机器翻译大语言模型进行翻译优化,得到构建好的示例感知能力提升的机器翻译大语言模型;所述S21中的构造句子级感知示例以及文档级感知示例,包括:S211、获取原始训练集;S212、在原始训练集中,随机选取多个翻译对,将所述多个翻译对作为句子级感知示例;S213、选取原始训练集中的任一翻译对,获取原始训练集中所选取的翻译对的前多个翻译对,将获取的多个翻译对作为文档级感知示例;所述S22中的根据所述句子级感知示例以及文档级感知示例,构造示例感知训练数据;根据所述示例感知训练数据,通过低秩适应LoRA微调技术,得到训练好的机器翻译大语言模型,包括:S221、将所述句子级感知示例以及文档级感知示例与原始训练数据拼接,拼接后的训练数据通过伯努利概率进行混合,得到示例感知训练数据;S222、获取基础的机器翻译大语言模型;S223、采用低秩适应LoRA微调技术,对所述基础的机器翻译大语言模型添加可调参数,得到参数可调的机器翻译大语言模型;S224、根据所述示例感知训练数据,对所述参数可调的机器翻译大语言模型进行训练,得到训练好的机器翻译大语言模型;所述S23中的构造领域翻译示例以及文档级翻译示例,包括:S231、获取原始训练集;S232、根据R-BM25检索方法,对原始训练集中的翻译对进行打分排序,选取打分超过预设阈值的翻译对作为领域翻译示例;S233、针对测试集中的目标句子,获取所述目标句子的前多个句子的翻译源语句和目标语句,将所述前多个句子的翻译源语句和目标语句输入至训练好的机器翻译大语言模型,得到机器翻译大语言模型生成的翻译示例,根据所述领域翻译示例以及机器翻译大语言模型生成的翻译示例,得到文档级翻译示例。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于示例感知的机器翻译大语言模型的翻译方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。