一种基于多维动态候选集的文本纠错方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于多维动态候选集的文本纠错方法，包括如下步骤：步骤1、从汉字识别文本纠错的SIGHAN系列数据集中获取输入文本S；步骤2、对于输入文本S，通过文本编码器编码将token嵌入、segment嵌入、position嵌入、词性嵌入通过向量加法进行合并，得到输入文本的最终嵌入表示，以及相应的嵌入序列E；步骤3、将得到的嵌入序列E，输入到检错网络，并利用注意力机制来检错可能发生错的字符，输出错误序列L以及错误序列L的错误概率P；步骤4、将错误序列L和嵌入序列E输入到语言模型中，使用软遮盖编码将两者组合成SOFT＇编码；步骤5、将SOFT＇编码作为输入，利用预训练的BERT语言纠错模块和特征融合模块组成的纠错网络对错误字符进行纠正，最终输出正确字符。

主权项：1.一种基于多维动态候选集的文本纠错方法，其特征在于，包括如下步骤：步骤1、从汉字识别文本纠错的SIGHAN系列数据集中获取输入文本S；步骤2、对于输入文本S，通过文本编码器编码将token嵌入、segment嵌入、position嵌入、词性嵌入通过向量加法进行合并，得到输入文本的最终嵌入表示，以及相应的嵌入序列E＝e1，e2，e3...，en表示；步骤3、将得到的嵌入序列E，输入到由若干Transformer模块组成的检错网络，并利用Transformer模块的注意力机制来检错可能发生错的字符，输出错误序列L以及错误序列L的错误概率P；步骤4、将错误序列L和嵌入序列E输入到语言模型中，使用软遮盖编码将两者组合成SOFT′编码；步骤5、将SOFT′编码作为输入，利用预训练的BERT语言纠错模块和特征融合模块组成的纠错网络对错误字符进行纠正，具体的：通过预训练的BERT语言纠错模块中的多头注意力机制执行多个注意力函数，从而捕获输入序列中不同位置的信息，输出纠错结果；然后通过预训练的BERT语言纠错模块中的前馈神经网络对输出纠错结果进行非线性变换，以增强模型的表达能力，其计算公式如下：FFNX＝max0，XW1+b1W2+b2式中，X为输入的文本序列，W1，W2为权重矩阵，b1和b2为偏置值；最后，对于每个位置的纠错概率，采用softmax函数进行归一化，得到相应的字符概率；所述每个位置的纠错概率计算方法如下：Pcyi＝j|X＝softmaxWh′i+b2[j]式中，Pcyi＝j|X表示在给定输入序列X的条件下，第i个字符被纠正为候选字符列表中第j个字符的概率，h′i是编码模块输出的隐藏状态，W和b2是模型参数；将纠错结果和错误序列，以及字符、字根和关键笔形特征一同输入特征融合模块中，通过字符相似度算法匹配字形相似候选字混淆集和领域字符混淆集，得到相似度匹配结果，然后将相似度匹配结果进行相似度概率求和，再进行归一化处理，然后，计算字符离散度，如果离散度算法不再改变，输出；反之，将归一化处理后的结果输入到预训练的BERT语言模型中多次迭代，直到字符离散度算法判定不再改变，最终输出正确字符。

全文数据：

权利要求：

百度查询：杭州电子科技大学一种基于多维动态候选集的文本纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于岩石地基的抗拔桩施工装置及施工方法

下一篇：一种直流充电桩低压注入绝缘检测电路及其检测方法

相关技术

基于岩石地基的抗拔桩施工装置及施工方法

一种直流充电桩低压注入绝缘检测电路及其检测方法

一种感应器测试验证设备

一种卵巢癌诊断用分泌物透光分析装置

一种高强韧性风电轴承钢及制法、用途和一种风电轴承

扇出型封装结构和扇出型封装结构的制备方法

一种炒茶控制设备

船用发电机干坞临时供水滤器装置及使用方法

一种人体姿态检测和康复硬件设备结合的康复训练系统及方法

一种提镓树脂中镓钒分步解吸的方法

一种颌骨矫治装置

一种马铃薯渣制备饲料用混合装置及其加工方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多维动态候选集的文本纠错方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务