首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于LSTM的阿语地名专名自动汉译模型与方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京师范大学

摘要:本发明公开了一种基于LSTM的阿语地名专名自动汉译模型与方法,构建阿拉伯语地名汉译知识库,并基于知识库进行地名语料的预处理与地名中专名部分的提取;将提取到的地名专名文本通过字符嵌入模型转为字符向量;基于阿拉伯语地名对应的中文地名平行语料训练的微调得到LSTM模型;输入待翻译的地名,得到地名专名汉译结果。该方案提升阿拉伯语地名专名音译的准确性、规范性,降低了对人工构建专名汉译规则的依赖,通过深度学习技术得到可用的阿拉伯语地名专名汉译模型,满足阿拉伯语地名专名汉译需求,为与阿拉伯语国家之间的跨语言交流和信息处理提供了有力的工具,对高质量的全球地理信息数据库的建设与管理提供支撑。

主权项:1.一种基于LSTM的阿语地名专名自动汉译方法,其特征在于,所述方法包括以下步骤:步骤1:构建阿拉伯语地名与对应的汉语地名的平行语料,同时进行基本的预处理,得到形式统一、格式规范的地名语料;步骤2:基于阿拉伯语语言学知识与地名学知识构建地名预处理知识库,以知识库为基础,通过输入的原始地名文本获取地名专名,同时依据阿拉伯语语言学知识库,针对其语言学特征,对其进行深度处理;步骤3:将外文地名和对应中文翻译的地名专名文本转化为字符集合,并利用独热编码与由浅层前馈神经网络构建的字符嵌入模型获取每个外文字符和中文字符相应的字符向量;步骤4:训练和微调LSTM模型,以测试准确率为依据来调整词嵌入层输出维度、输入特征维数、隐藏层状态的维数、LSTM堆叠的层数、批处理数量、学习率、预训练次数和丢弃正则化概率八个超参数的取值,使得LSTM模型对测试集的翻译结果能取得最高的测试准确率;步骤5:按照步骤2提取待汉译地名的专名部分,并将提取结果转化为字符向量输入到训练、微调完毕的LSTM模型中,输出相应的专名汉译结果;步骤6:依据国家标准《外语地名汉字译写导则阿拉伯语》,标准号:GBT17693.6—2008中的“阿汉音译表”,对表格中的内容进行知识化处理构建标准知识库,并以此为支撑,对模型输出结果进行校正,得到符合国标规定的阿拉伯语地名专名音译结果;其中,步骤3中将地名专名文本转化为字符向量是通过构建浅层前馈神经网络将由独热编码表示的地名专名字符转化为字符向量,具体如下:根据地名专名提取结果,不同语言文字之间的音译分为基于字素的音译与基于音素的音译两种,基于音素的音译需要将文本处理为字符级的序列并将字符进行组合得到源语种的发音音节,将阿拉伯语地名专名和对应的中文地名专名部分转化为相应的字符集合,将每个专名中的字母进行拆分,以单个字符作为音译处理的基本单位,并构建每个阿拉伯语地名专名和对应的中文地名专名部分的字符向量,其对应的字符向量分别表示为VARi,VCHi,其中一个或多个阿拉伯语字符向量对应一个中文汉字的向量,对应关系如下式所示: 在利用LSTM神经网络对地名对应的字符向量进行计算时,按照输入文本的顺序读取输入的x=x1,x2......,xi,其中x1为输入的第1个字符,xi为输入的第i个字符,根据输入计算隐层状h1,h2......,hi,h1表示隐层状态的第1个语义向量元素,hi表示隐层状态的第i个语义向量元素。

全文数据:

权利要求:

百度查询: 南京师范大学 一种基于LSTM的阿语地名专名自动汉译模型与方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。