一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法

导航：龙图腾网> 最新专利技术> 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：昆明理工大学

摘要：本发明公开了一种从老挝‑汉语篇章级对齐语料中抽取对齐语句的方法，属于自然语言处理和机器学习技术领域。本发明首先将篇章级对齐的语料使用python进行正则表达式的处理，去除掉噪音数据，并作为输入，由于老挝语与中文的句子排序是一致的，所以可以先将篇章级的语料处理为单个的对齐语句，之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词，将分词的此语作为LSTM的输入，通过保留LSTM编码器对输入序列的中间输出结果，训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联，从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。

主权项：1.一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：包括如下步骤：Step1，将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理，然后对这些对齐片段进行数据集划分，其中，已对齐的训练集占90％，乱序测试集占10％；Step2，根据训练集以及测试集的句子，统计其中的互异的词组，以及每个词组出现的次数，经过word-embedding计算句子的词向量；Step3，将Step2得出词向量作为LSTM算法的输入，即此时LSTM算法作为encoder部分，并将这些词向量作为encoder端的输入，encoder部分通过LSTM算法的初始化向量进行相似度计算；Step4，每个词向量经由encoder部分输出,经过softmax函数，求出各个句子词向量的语义编码C，组成一个向量序列；Step5，将Step4中得到的向量序列，作为decoder部分的初始输入，在decoder部分加入了Attention机制，解码的时候，每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理；所以在decoder部分中，每个时刻的输出作为下一时刻的输入，每一个输出，都能够做到充分利用输入序列携带的信息，以此类推，直到结尾；Step6，经过encoder与decoder部分的相似度的计算，得出相似度最高的句子词向量，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。

全文数据：一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法技术领域本发明涉及一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，特别是一种基于LSTMLongShort-TermMemory长短期记忆网络的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，属于自然语言处理和机器学习技术领域。背景技术双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源，双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术，因而具有重要的研究价值。很多情况下，双语语料我们可以获得，但是得到的文本通常并不是以句子为单位对齐的，例如有些是以段落或者按照整篇文章来对齐的。这种情况下，就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式，从而进行平行句对的抽取。发明内容本发明要解决的技术问题是：提供一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，用于解决从汉语-老挝语的对齐语料中抽取对齐语句,能够有效提高句子对齐的准确率。本发明采用的技术方案是：一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，包括如下步骤：Step1，将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理，然后对这些对齐片段进行数据集划分，其中，已对齐的训练集占90％，乱序测试集占10％；Step2，根据训练集以及测试集的句子，统计其中的互异的词组，以及每个词组出现的次数，经过word-embedding计算句子的词向量；Step3，将Step2得出词向量作为LSTM算法的输入，即此时LSTM算法作为encoder部分，并将这些词向量作为encoder端的输入，encoder部分通过LSTM算法的初始化向量进行相似度计算；Step4，每个词向量经由encoder部分输出,经过softmax函数，求出各个句子词向量的语义编码C，组成一个向量序列；Step5，将Step4中得到的向量序列，作为decoder部分的初始输入，在decoder部分加入了Attention机制，解码的时候，每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理；所以在decoder部分中，每个时刻的输出作为下一时刻的输入，每一个输出，都能够做到充分利用输入序列携带的信息，以此类推，直到结尾；Step6，经过encoder与decoder部分的相似度的计算，得出相似度最高的句子词向量，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。具体地，所述Step1中所述的对齐片段为经过噪声处理过后的对齐篇章语料。具体地，所述Step2通过python编码，对最初的篇章级对齐语料进行句子分词，通过代码实现单个句子老挝语句子以及中文句子的分词，并统计词数。具体地，所述Step3的具体步骤如下：输入分出来的句子，将句子进行分词，经过word-embedding之后作为输入，输入到LSTM中，然后经过隐藏层得出隐藏层信息h1，h2，...,在这个时候encoder部分的第一个时刻的hidden-state假设为Z0初始变量，然后使用Z0和h1，h2，...进行相似度计算，得出各个时刻的a10,a20,a30,…aij,其中，a的下标i表示encoder中隐藏层信息的下标，a的下标j表示神经网络的初始变量的下标。具体地，所述步骤Step5在decoder阶段每一步解码，都能够有一个输入，对输入序列所有隐藏层的信息h1,h2,…ht进行加权求和，也就是每次在预测下一个词时都会把所有输入序列的隐藏层信息都看一遍，决定预测当前词时和输入序列的那些词最相关，Attention机制代表了在解码decoder阶段，每次都会输入一个上下文的向量Ci,隐藏层的新状态Si根据上一步的状态Si-1,Yi,Ci三者的一个非线性函数得出，如公式1，其中Ci为encoder阶段的每时刻输出状态的加权平均和，求解方式为公式2，Si-1,Yi分别为decoder阶段的前一状态和前一次输出的预测值，这里hj为encoder阶段的每个时刻输出状态，aij为每个decoder阶段的输入i对应的hj的权重值大小；Si＝FSi-1，Yi，Ci1具体地，所述步骤Step6在经过相似度计算之后，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。本发明的有益效果是：1该基于基于LSTM的从老挝-汉语篇章级对齐语料中抽取对齐语句方法中，相对比单方面的encoder-decoder的算法模型在汉语-老挝语抽取中准确率有所提高。2该基于LSTM的从老挝-汉语篇章级对齐语料中抽取对齐语句方法中，使用了LSTM算法，相比较其他算法，在特征提取的效果上有了比较不错的提高。3该基于LSTM的从老挝-汉语篇章级对齐语料中抽取对齐语句方法中，融入老挝语语法特征以及中文的语法特征，通过深度学习可以自动识别出来，相比于人工识别，速度更快，泛化性更强，省时省力。附图说明图1为本发明中的流程图；图2为本发明所使用的LSTM训练词向量的基本结构图；图3为本发明Attention机制的encoder-decoder模型示意图；图4是本发明Attention模型计算词向量示意图。具体实施方式实施例1：如图1-4所示，一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，包括如下步骤：：Step1，将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理，然后对这些对齐片段进行数据集划分，其中，已对齐的训练集占90％，乱序测试集占10％；Step2，根据训练集以及测试集的句子，统计其中的互异的词组，以及每个词组出现的次数，经过word-embedding计算句子的词向量；Step3，将Step2得出词向量作为LSTM算法的输入，即此时LSTM算法作为encoder部分，并将这些词向量作为encoder端的输入，encoder部分通过LSTM算法的初始化向量进行相似度计算；Step4，每个词向量经由encoder部分输出,经过softmax函数，求出各个句子词向量的语义编码C，组成一个向量序列；Step5，将Step4中得到的向量序列，作为decoder部分的初始输入，在decoder部分加入了Attention机制，解码的时候，每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理；所以在decoder部分中，每个时刻的输出作为下一时刻的输入，每一个输出，都能够做到充分利用输入序列携带的信息，以此类推，直到结尾；Step6，经过encoder与decoder部分的相似度的计算，得出相似度最高的句子词向量，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。进一步地，所述Step1中所述的对齐片段为经过噪声处理过后的对齐篇章语料。进一步地，所述Step2通过python编码，对最初的篇章级对齐语料进行句子分词，通过代码实现单个句子老挝语句子以及中文句子的分词，并统计词数。进一步地，所述Step3的具体步骤如下：输入分出来的句子，将句子进行分词，经过word-embedding之后作为输入，输入到LSTM中，然后经过隐藏层得出隐藏层信息h1，h2，...,在这个时候encoder部分的第一个时刻的hidden-state假设为Z0初始变量，然后使用Z0和h1，h2，...进行相似度计算，得出各个时刻的a10,a20,a30,…aij,其中，a的下标i表示encoder中隐藏层信息的下标，a的下标j表示神经网络的初始变量的下标。进一步地，所述步骤Step5在decoder阶段每一步解码，都能够有一个输入，对输入序列所有隐藏层的信息h1,h2,…ht进行加权求和，也就是每次在预测下一个词时都会把所有输入序列的隐藏层信息都看一遍，决定预测当前词时和输入序列的那些词最相关，Attention机制代表了在解码decoder阶段，每次都会输入一个上下文的向量Ci,隐藏层的新状态Si根据上一步的状态Si-1,Yi,Ci三者的一个非线性函数得出，如公式1，其中Ci为encoder阶段的每时刻输出状态的加权平均和，求解方式为公式2，Si-1,Yi分别为decoder阶段的前一状态和前一次输出的预测值，这里hj为encoder阶段的每个时刻输出状态，aij为每个decoder阶段的输入i对应的hj的权重值大小；Si＝FSi-1，Yi，Ci1进一步地，所述步骤Step6在经过相似度计算之后，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。双语语料库最为作为自然语言研究领域的重要语言资源，语言信息处理的研究深入，在语料的获取，处理有了长足的进步。本发明主要融合了老挝语语言学特征到算法模型中，在模型的使用中选择了多种模型融合的方法，提高识别精度，使用Attention机制注意力机制，并拿LSTM作为encoder-decoder编码器-解码器。首先将篇章级对齐的语料使用python进行正则表达式的处理，去除掉噪音数据，并作为输入，由于老挝语与中文的句子排序是一致的，所以可以先将篇章级的语料处理为单个的对齐语句，之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词，将分词的此语作为LSTM的输入，通过保留LSTM编码器对输入序列的中间输出结果，训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联，从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

权利要求：1.一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：包括如下步骤：Step1，将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理，然后对这些对齐片段进行数据集划分，其中，已对齐的训练集占90％，乱序测试集占10％；Step2，根据训练集以及测试集的句子，统计其中的互异的词组，以及每个词组出现的次数，经过word-embedding计算句子的词向量；Step3，将Step2得出词向量作为LSTM算法的输入，即此时LSTM算法作为encoder部分，并将这些词向量作为encoder端的输入，encoder部分通过LSTM算法的初始化向量进行相似度计算；Step4，每个词向量经由encoder部分输出，经过softmax函数，求出各个句子词向量的语义编码C，组成一个向量序列；Step5，将Step4中得到的向量序列，作为decoder部分的初始输入，在decoder部分加入了Attention机制，解码的时候，每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理；所以在decoder部分中，每个时刻的输出作为下一时刻的输入，每一个输出，都能够做到充分利用输入序列携带的信息，以此类推，直到结尾；Step6，经过encoder与decoder部分的相似度的计算，得出相似度最高的句子词向量，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。2.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述Stepl中所述的对齐片段为经过噪声处理过后的对齐篇章语料。3.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述Step2通过python编码，对最初的篇章级对齐语料进行句子分词，通过代码实现单个句子老挝语句子以及中文句子的分词，并统计词数。4.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述Step3的具体步骤如下：输入分出来的句子，将句子进行分词，经过word-embedding之后作为输入，输入到LSTM中，然后经过隐藏层得出隐藏层信息h1，h2，...，在这个时候encoder部分的第一个时刻的hidden-state假设为Z0初始变量，然后使用Z0和h1，h2，...进行相似度计算，得出各个时刻的a10，a20，a30，…aij，其中，a的下标i表示encoder中隐藏层信息的下标，a的下标j表示神经网络的初始变量的下标。5.根据权利要求4所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述步骤Step5在decoder阶段每一步解码，都能够有一个输入，对输入序列所有隐藏层的信息h1，h2，…ht进行加权求和，也就是每次在预测下一个词时都会把所有输入序列的隐藏层信息都看一遍，决定预测当前词时和输入序列的那些词最相关，Attention机制代表了在解码decoder阶段，每次都会输入一个上下文的向量Ci，隐藏层的新状态Si根据上一步的状态Si-1，Yi，Ci三者的一个非线性函数得出，如公式1，其中Ci为encoder阶段的每时刻输出状态的加权平均和，求解方式为公式2，Si-1，Yi分别为decoder阶段的前一状态和前一次输出的预测值，这里hj为encoder阶段的每个时刻输出状态，aij为每个decoder阶段的输入i对应的hj的权重值大小；Si＝FSi-1，Yi，Ci1。6.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述步骤Step6在经过相似度计算之后，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。

百度查询：昆明理工大学一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：印制电路板、器件焊接检测方法、装置及电子设备

下一篇：一种空穴传输层材料Spiro-OMeTAD的合成方法

相关技术

印制电路板、器件焊接检测方法、装置及电子设备

一种空穴传输层材料Spiro-OMeTAD的合成方法

一种水分测定仪

一种用于实现低速清扫车自动行驶系统的方法

一种导电浆料电阻率测试装置及导电浆料电阻率测试方法

一种膨化食品加工用粉碎装置

用于工业环境中对象的质量评估的方法和系统

适用于不同功能空间声场控制的音频处理系统及方法

一种稠油工况螺杆泵控制系统

一种用于多弯曲半径的数控弯曲连接装置及使用方法

一种高功率密度增速齿轮箱的模态测试方法

大语言模型生成SQL查询语句中的数据权限控制方法及设备

对齐相关技术

一种钨棒加工用对齐切割装置_江西耀升钨业股份有限公司_202410875003.3

一种可自动对齐的无线充电结构_常州立焘新能源科技有限公司_202420254069.6

大语言模型安全对齐训练方法、装置、电子设备及介质_清华大学_202410859925.5

基于门控对齐网络的城市场景实时语义分割方法_南京信息工程大学_202410948929.0

一种基于路面病害对齐的病害时空追溯方法、产品、介质及设备_上海同陆云交通科技有限公司_202410986824.4

一种实体标注方法及基于强化主动学习的实体对齐方法_重庆大学_202411112874.6

一种图像对齐方法、装置、设备及存储介质_生物岛实验室_202410777389.4

一种凹版印刷机的对齐上纸装置_渭南大东印刷包装机械有限公司_202420583864.X

一种基于细粒度跨模态对齐模型的文本-视频检索方法_湖南麓湖数据科技有限公司_202111312220.4

一种用于精确对齐花型的发光桌_桐乡市丰同裕蓝印布艺有限公司_202420607543.9

篇章相关技术

篇章级别信息联合抽取方法、装置、设备及存储介质_中电网络空间研究院有限公司_202310445638.5

一种多粒度相似性增强的篇章级事件论元抽取方法及系统_国家计算机网络与信息安全管理中心_202410768553.5

一种基于难度序列推理的篇章级事件论元抽取方法及系统_国家计算机网络与信息安全管理中心_202410746389.8

一种基于篇章卷面分析的测试方法、装置及可读存储介质_暗物智能科技(广州)有限公司_202410676125.X

一种篇章生成方法及相关装置、设备和存储介质_合肥讯飞数码科技有限公司_202410618592.7

一种基于轻量化的篇章级蒙汉神经机器翻译方法_内蒙古工业大学_202410680051.7

篇章事件抽取方法、系统、设备及存储介质_中译语通科技股份有限公司_202311470833.X

基于依存句法预训练模型的篇章级关系抽取方法及系统_大连海事大学_202210045155.1

一种基于论元子图提示生成与引导的篇章级多事件抽取方法_浙江大学_202210087670.6

篇章要点检测方法、装置、设备及存储介质_科大讯飞股份有限公司_202010776952.8

中相关技术

槲皮素在鉴别中蜂蜜和意蜂蜜中的应用_中国农业科学院蜜蜂研究所_202210646486.0

可替换中束芯的口红_洽兴包装工业(中国)有限公司_201911064180.9

电解剖信号中的噪声_伯恩森斯韦伯斯特(以色列)有限责任公司_202380031360.5

灌洗系统中的压力监测_科洛普拉斯特公司_202380032648.4

条件交换中的信令改进_诺基亚技术有限公司_201880098518.X

术中可调节高度的支架_山西白求恩医院(山西医学科学院、华中科技大学同济医学院附属同济医院山西医院、山西医科大学第三医院、山西医科大学第三临床医学院)_202420530321.1

通信系统中的安全访问控制_诺基亚技术有限公司_202080043695.5

一种中跑车提升装置_深圳精智机器有限公司_201910438377.8

医学设备中噪声的主动消除_皇家飞利浦有限公司_202380032292.4

一种智能中控屏_深圳市亿莱顿科技有限公司_202420321360.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务