一种基于LSTM的阿语地名专名自动汉译模型与方法

导航：龙图腾网> 最新专利技术> 一种基于LSTM的阿语地名专名自动汉译模型与方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京师范大学

摘要：本发明公开了一种基于LSTM的阿语地名专名自动汉译模型与方法，构建阿拉伯语地名汉译知识库，并基于知识库进行地名语料的预处理与地名中专名部分的提取；将提取到的地名专名文本通过字符嵌入模型转为字符向量；基于阿拉伯语地名对应的中文地名平行语料训练的微调得到LSTM模型；输入待翻译的地名，得到地名专名汉译结果。该方案提升阿拉伯语地名专名音译的准确性、规范性，降低了对人工构建专名汉译规则的依赖，通过深度学习技术得到可用的阿拉伯语地名专名汉译模型，满足阿拉伯语地名专名汉译需求，为与阿拉伯语国家之间的跨语言交流和信息处理提供了有力的工具，对高质量的全球地理信息数据库的建设与管理提供支撑。

主权项：1.一种基于LSTM的阿语地名专名自动汉译方法，其特征在于，所述方法包括以下步骤：步骤1：构建阿拉伯语地名与对应的汉语地名的平行语料，同时进行基本的预处理，得到形式统一、格式规范的地名语料；步骤2：基于阿拉伯语语言学知识与地名学知识构建地名预处理知识库，以知识库为基础，通过输入的原始地名文本获取地名专名，同时依据阿拉伯语语言学知识库，针对其语言学特征，对其进行深度处理；步骤3：将外文地名和对应中文翻译的地名专名文本转化为字符集合，并利用独热编码与由浅层前馈神经网络构建的字符嵌入模型获取每个外文字符和中文字符相应的字符向量；步骤4：训练和微调LSTM模型，以测试准确率为依据来调整词嵌入层输出维度、输入特征维数、隐藏层状态的维数、LSTM堆叠的层数、批处理数量、学习率、预训练次数和丢弃正则化概率八个超参数的取值，使得LSTM模型对测试集的翻译结果能取得最高的测试准确率；步骤5：按照步骤2提取待汉译地名的专名部分，并将提取结果转化为字符向量输入到训练、微调完毕的LSTM模型中，输出相应的专名汉译结果；步骤6：依据国家标准《外语地名汉字译写导则阿拉伯语》,标准号：GBT17693.6—2008中的“阿汉音译表”，对表格中的内容进行知识化处理构建标准知识库，并以此为支撑，对模型输出结果进行校正，得到符合国标规定的阿拉伯语地名专名音译结果；其中，步骤3中将地名专名文本转化为字符向量是通过构建浅层前馈神经网络将由独热编码表示的地名专名字符转化为字符向量，具体如下：根据地名专名提取结果，不同语言文字之间的音译分为基于字素的音译与基于音素的音译两种，基于音素的音译需要将文本处理为字符级的序列并将字符进行组合得到源语种的发音音节，将阿拉伯语地名专名和对应的中文地名专名部分转化为相应的字符集合，将每个专名中的字母进行拆分，以单个字符作为音译处理的基本单位，并构建每个阿拉伯语地名专名和对应的中文地名专名部分的字符向量，其对应的字符向量分别表示为VARi，VCHi，其中一个或多个阿拉伯语字符向量对应一个中文汉字的向量，对应关系如下式所示：在利用LSTM神经网络对地名对应的字符向量进行计算时，按照输入文本的顺序读取输入的x＝x1，x2......，xi，其中x1为输入的第1个字符，xi为输入的第i个字符，根据输入计算隐层状h1，h2......，hi,h1表示隐层状态的第1个语义向量元素，hi表示隐层状态的第i个语义向量元素。

全文数据：

权利要求：

百度查询：南京师范大学一种基于LSTM的阿语地名专名自动汉译模型与方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种塑料周转盘吸塑成型设备及其使用方法

下一篇：激光泵浦光热微区荧光寿命测温系统

相关技术

一种塑料周转盘吸塑成型设备及其使用方法

激光泵浦光热微区荧光寿命测温系统

自适应校园网DNS系统

工程化烯酮还原酶和酮还原酶变体酶

深度学习框架中功能模块适配方法及装置

一种用于提高同步IO并行访问效率的加速结构和方法

FCRN抗体及其使用方法

止推轴承和车辆的麦弗逊悬架

一种空气处理设备及控制方法

一种电容后置温度补偿方法、装置、电子设备及存储介质

一种文件下载方法、装置以及车辆

一种激光直写纸基多通道LIG传感器的制备方法及其应用

专名相关技术

一种基于LSTM的阿语地名专名自动汉译模型与方法_南京师范大学_202410474653.7

阿拉伯语地名专名音译方法、装置、翻译设备和存储介质_中国测绘科学研究院_202010234562.8

一种专名识别方法、计算机设备、可读存储介质和程序产品_苏州思萃人工智能研究所有限公司_202210909700.7

阿拉伯语地名专名音译方法、装置、翻译设备和存储介质_中国测绘科学研究院_202010234562.8

专名词典的词条过滤方法及装置_北京明略软件系统有限公司_202010256719.7

古籍专名识别方法以及装置_古联（北京）数字传媒科技有限公司_201711012269.1

类别专名挖掘方法及装置_百度在线网络技术（北京）有限公司_201410601567.4

一种基于机器翻译的专名翻译方法_武汉传神信息技术有限公司_201410406501.X

一种确定具有专名译文的词汇的翻译方向的方法_武汉传神信息技术有限公司_201410819734.2

一种专名自动翻译的方法_武汉传神信息技术有限公司_201310638808.8

自动相关技术

PCB自动配板机_惠州市成泰自动化科技有限公司_202110124152.2

瓶口自动冲洗机_成都巨龙生物科技股份有限公司_202323220779.1

自动预装设备_苏州矽微电子科技有限公司_202411122398.6

试样自动注入装置_株式会社岛津制作所_202080100541.5

自动搬送系统_绿色电力株式会社_202111512436.5

自动开门的烤箱_中山百得厨卫有限公司_202420266795.X

爆米花自动制售机_佛山市海枣树科技有限公司_202323489433.1

自动焊锡工装_威海东兴电子有限公司_202420177781.0

自动采样器_广州市自来水有限公司_202323370840.0

轴承自动装配设备_河北科技大学_202411110385.7

地名相关技术

一种多语种地名全球智能定位方法、装置、介质及产品_中国测绘科学研究院_202410986971.1

区划、地名、界线中线状对象精细化自动处理系统及方法_厦门精图信息技术有限公司_202210469483.4

一种业务地名地址数据标准化治理效率提升方法及装置_武汉科信云图信息技术有限公司_202311786471.5

一种自然语言式地名查询方法_中国测绘科学研究院_202410902825.6

基于关系驱动的地名标签可视化方法及系统_湖北大学_202410584211.8

一种基于多粒度地理实体的地名地址语义化表达方法_北京智信遥感地理信息技术有限公司_202410691138.4

一种基于LSTM的阿语地名专名自动汉译模型与方法_南京师范大学_202410474653.7

一种地名文化标识安装工具_重庆新晶飞科技有限公司_202322759233.7

一种地名地址标准化匹配算法_中科星图智慧科技安徽有限公司_202211485448.8

基于关系驱动的地名标签可视化方法及系统_湖北大学_202410584211.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于LSTM的阿语地名专名自动汉译模型与方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务