一种基于思维链的大模型机器翻译强化方法、系统、设备及介质

导航：龙图腾网> 最新专利技术> 一种基于思维链的大模型机器翻译强化方法、系统、设备及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工业大学

摘要：一种基于思维链的大模型机器翻译强化方法、系统、设备及介质，属于机器翻译技术领域，解决了大语言模型在执行训练数据之外或者低资源、特殊领域的翻译任务时翻译效果不好，如果对模型微调，使其继续适应需求，会带来更庞大的计算资源，难以实施的问题。所述方法包括：S1：构建领域知识库，将待翻译原文输入到所述领域知识库中，获得领域知识；S2：构建大语言模型，将待翻译原文和所述领域知识输入到所述大语言模型中，对所述领域知识进行增强，获得增强后的领域知识；S3：根据待翻译原文和增强后的领域知识，构建prompt；S4：采用大语言模型，结合所述prompt，对待翻译原文进行翻译，获得多个翻译结果。本发明适用于各种特定领域的大批量文本翻译场景。

主权项：1.一种基于思维链的大模型机器翻译强化方法，其特征在于，所述方法包括：S1：构建领域知识库，将待翻译原文输入到所述领域知识库中，获得领域知识；S2：构建大语言模型，将待翻译原文和所述领域知识输入到所述大语言模型中，对所述领域知识进行增强，获得增强后的领域知识；S3：根据待翻译原文和增强后的领域知识，构建prompt；S4：采用所述大语言模型，结合所述prompt，对所述待翻译原文进行翻译，获得多个翻译结果；所述S1包括：S11：将待翻译原文的语言序列转化为向量嵌入表示；S12：使用向量嵌入表示进行文本聚；所述S11包括：S111：根据待翻译原文获取待分类语料；S112：根据领域、语种，将所述待分类语料划分为多组语料；S113：采用m-bert模型的tokennizer对每组语料进行token序列转化；S114：将转化后的每组语料进行token数量平均化；S115：采用数量平均化后的每组语料训练m-bert模型的embedding层，固定m-bert模型的其他层，生成向量嵌入表示；所述S12包括：S121：根据所有向量嵌入表示，采用k-means算法获得k个文本类别；S122：采用k-means算法对每个文本类别进行文本聚类，得到多个细分领域；S123：将所述多个细分领域内的文本，输入到大语言模型中，获得细分领域知识；S124：结合所述细分领域知识和k-means模型，获得所述领域知识库；所述方法还包括：S5：将所述多个翻译结果作为译文库，采用大语言模型，在所述译文库中提取出最优翻译结果，作为母句；S6：从所述译文库中继续提取数个翻译结果，并和所述母句输入到大语言模型中；S7：结合所述增强后的领域知识对所述母句进行差异性、优缺点分析，得到分析结果；S8：结合所述增强后的领域知识、分析结果和译文库，对所述母句进行优化，得到优化后的母句；S9：循环S6至S8，直至所述译文库中所有翻译结果提取完毕。

全文数据：

权利要求：

百度查询：哈尔滨工业大学一种基于思维链的大模型机器翻译强化方法、系统、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种粉末取样器

下一篇：一种建筑通风节能系统

相关技术

一种粉末取样器

一种建筑通风节能系统

一株噬尼古丁类节杆菌及其在聚乙烯塑料降解中的应用

用户满意度预测方法、装置、电子设备及存储介质

一种目标高度已知的SAR动目标一维测角定位方法

电极组件、以及包括该电极组件的二次电池、电池组和交通工具

基板研磨方法

一种蒴果揉搓分选装置及其分选方法

一种五自由度纳米运动装置及其控制方法

光学成像镜头

系统用例回归规划方法、装置、设备及存储介质

一种矿泉水生产用过滤装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于思维链的大模型机器翻译强化方法、系统、设备及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务