融合多粒度特征的越南语语法错误纠正方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：昆明理工大学

摘要：本发明涉及融合多粒度特征的越南语语法错误纠正方法及装置，属自然语言处理领域。本发明在模型编码端融入额外的越南语字符、音节和句子特征嵌入，然后利用一个序列标注网络预测输入句子的错误位置，再使用多语言BERT的掩码语言模型重新预测错误位置的词，得到数个纠正候选句子，最后利用N‑gram语言模型对候选句子打分，选出得分最高的句子作为纠正句子输出。该方法避免了直接生成句子，而是根据错误检测结果对输入句子进行修改，不会改变输入句子的基本语法结构。实验结果表明本发明比基于Transformer模型的基线方法的F0.5值和F1值分别提升了16.69％和17.84％，语法纠错效果明显优于序列到序列的生成模型。

主权项：1.融合多粒度特征的越南语语法错误纠正方法，其特征在于，所述方法的具体步骤如下：Step1、越南语文本数据获取并对其进行预处理；Step2、对输入的越南语句子进行词嵌入表示，并且融合额外的特征向量；对输入的越南语句子进行语法错误检测；Step3、根据检测结果利用mBERT掩码语言模型对错误位置的词进行纠正，得到数个候选句子；利用N-gram语言模型对候选句子打分，选出得分最高的纠正候选句子输出；所述Step2的具体步骤如下：Step2.1、对于输入的包含语法错误的句子X＝x1,...,xi,...,xn，利用多语言BERT模型mBERT对输入句子的每个音节xi进行词嵌入初始化，得到编码后的隐状态表示：其中，表示mBERT编码器最后一层的隐状态输出，L表示隐层网络层数；Step2.2、对输入的每个音节xi进行字符特征嵌入，首先对xic1,c2,....,cM进行字符拆分，得到当前音节的每个字符cj，然后对每个字符cj进行One-hot编码，得到音节xi对应的字符特征向量Ci：其中，M表示音节的字符总数，DC表示字符特征维度大小，fkx表示第k维的One-hot编码；Step2.3、对输入的每个音节xi进行音节特征嵌入，音节特征包括每个音节对应的词性和它的声调，先判断输入音节的词性标签pi和声调标签ti，然后分别根据词性和声调标签进行One-hot编码，得到词性特征向量Pi和声调特征向量Ti，最后将Pi和Ti进行拼接操作得到音节特征向量Si： Si＝ConcatPi,Ti4其中，fkx表示第k维的one-hot编码，DP表示词性特征维度，DT表示声调特征维度；Step2.4、对输入的每个音节xi进行句子特征嵌入，句子特征包括短语成分特征和相邻音节匹配度特征，用一个矩阵表示第i个音节对应的短语成分特征矩阵，其中，ds表示成分标注集大小，dm表示短语成分特征维度，第k维的权重参数从一个服从上的均匀分布进行随机采样，采样样本数为dm；Step2.5、使用相邻音节匹配度ASM来表示输入句子中两个相邻音节之间的语法正确程度，首先使用点互信息PMI来表示相邻音节之间的相关性：其中，Ps1,s2表示两个音节s1和s2在语料库中同时出现的概率，Ps表示某个音节s在语料库中单独出现的概率；Step2.6、用一个矩阵表示第i个音节的相邻音节匹配度特征，其中，dm表示特征维度，矩阵中的每个权重参数用相邻音节匹配度ASM进行初始化： Step2.7、将第i个音节的短语成分特征向量和相邻音节匹配度特征向量进行拼接，得到句子特征向量Gi，然后再将字符特征向量Ci、音节特征向量Si和句子特征向量Gi按照最大维度填充后再拼接，得到音节xi对应的特征向量Fxi： Fxi＝Pad_ConcatCi,Si,Gi8Step2.8、得到每个音节xi的特征嵌入Fxi后，再将其和mBERT编码器的最后一层隐状态输出进行拼接，得到最终的隐状态表示Xi，然后将送入一个softmax层去计算每个音节xi的预测标签概率li： li＝softmaxWOXi+bO10其中，WO是softmax层的矩阵权重参数，bO是偏置项权重参数；所述Step3的具体步骤如下：Step3.1、根据Step2中得到的预测标签序列L＝l1,l2,...,ln进行语法错误纠正，首先遍历检测结果标签序列中的每个标签li，如果li为“O”，则纠正句子中对应位置处的音节保持不变，否则将对应位置处的音节替换为“MASK”标记；Step3.2、利用mBERT掩码语言模型对“MASK”标记位置的词进行重新预测，给出5个候选纠正项{a1,a2,a3,a4,a5}；Step3.3、原输入句子X的“MASK”标记处分别用5个纠正候选项进行替换，得到对应的5个纠正候选句子{Y1,Y2,Y3,Y4,Y5}；Step3.4、利用N-gram语言模型对得到的5个纠正候选句子进行打分：其中，S表示输入的候选句子，Px表示利用N-gram语言模型计算出的某个音节x在语料库中出现的概率；Step3.5、选择5个候选句子中得分最高的作为最终的纠正句子输出：Yout＝max{scoreY1,scoreY2,scoreY3,scoreY4,scoreY5}13。

全文数据：

权利要求：

百度查询：昆明理工大学融合多粒度特征的越南语语法错误纠正方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：订单处理方法、装置、电子设备及存储介质

下一篇：用于修复叶片根部的方法

相关技术

订单处理方法、装置、电子设备及存储介质

用于修复叶片根部的方法

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

一种汽车电子设备和菊花链通信的超时复位系统

基于大模型的交互方法、装置、终端设备和存储介质

公路软土路基超载预压时超载比的确定方法、装置及介质

一种煤矿井下风水管路在线监测系统

用于传递和存储用于ESIM设备变更的激活码的方法和装置

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

一种身份认证方法、系统、电子设备及存储介质

电池、用电设备、制备电池的方法和设备

一种燃料舱搭载精度控制方法和燃料舱

语法相关技术

一种基于深度学习和形状语法的屋顶自动化三维重建方法_南通大学_202411008751.8

基于语法语义语用的能力评价指标体系有效性验证架构构建方法_大连理工大学_202411065206.2

视频/图像编译系统中用于合并数据语法的信令方法和装置_LG电子株式会社_202080045848.X

用于推导第一语法元素的值的方法、装置和存储介质_瑞典爱立信有限公司_202180025450.4

基于引脚的梯形图程序语法检查方法、系统、设备及介质_国电南京自动化股份有限公司_202410935036.2

用于视频编解码中的高级语法的方法和设备_北京达佳互联信息技术有限公司_202311191514.5

语法改错质量评估方法和系统_清华大学_202110393905.X

基于场境的语音识别语法选择方法和系统_谷歌有限责任公司_202410895945.8

一种基于大数据的语法汇编展示装置_上海万凯蓝智能科技有限公司_202420087821.2

基于增强方式融合语法信息的深度学习文本匹配方法_天津大学_202210384575.2

越南语相关技术

一种语篇级事件时间线生成方法_河海大学_202410548830.1

一种无监督神经机器翻译的语码转换词汇交叠增强方法_天津大学_202210114304.5

手势语动作衔接生成方法_大连东锐软件有限公司_202210318044.3

车辆语音回复语的生成方法、电子设备及存储介质_博泰车联网科技(上海)股份有限公司_202310492325.5

车辆语音回复语的更新方法、系统、电子设备及存储介质_博泰车联网科技(上海)股份有限公司_202310492049.2

一种应用于政数咨询的手势唇语识别的操作方法_广东天网智城科技有限公司_202410969186.5

基于唇语密码的人脸识别方法、装置及存储介质_平安科技(深圳)有限公司_201910885930.2

推荐语生成方法、装置、电子设备和存储介质_抖音视界有限公司_202410967445.0

提示语生成方法和装置、电子设备及存储介质_平安科技(深圳)有限公司_202410867003.9

一种国际化提示语处理方法、装置、电子设备及存储介质_创优数字科技(广东)有限公司_202411113802.3

错误相关技术

用于检测车辆中的致动器错误配置的系统_通用汽车环球科技运作有限责任公司_202311395813.0

使用写入指令信令进行存储器错误恢复_谷歌有限责任公司_202380033829.9

一种错误信息处理方法、设备、介质及程序产品_苏州元脑智能科技有限公司_202411206022.3

虚拟主站自动验收与配置错误定位系统及方法_广东电网有限责任公司江门供电局_202411445492.5

一种基于Openstack的日志关键错误自动识别方法及装置_中电信数智科技有限公司_202210711115.6

一种电动车BMU模块在钥匙上电瞬间触发错误帧的解决方法_江铃汽车股份有限公司_202411210786.X

用于减轻存储器单元错误形状的技术_闪迪技术有限公司_202010206335.4

一种用于防止PCB板错误安装的AOI工位防呆治具_芜湖宏景电子股份有限公司_202411067829.3

一种错误信息辅助提取方法、装置、设备及可读存储介质_广东浪潮大数据研究有限公司_202010571704.X

用于半导体存储器的错误校正编码与数据总线反转的设备与方法_美光科技公司_202410965557.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

融合多粒度特征的越南语语法错误纠正方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务