买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于多维动态候选集的文本纠错方法,包括如下步骤:步骤1、从汉字识别文本纠错的SIGHAN系列数据集中获取输入文本S;步骤2、对于输入文本S,通过文本编码器编码将token嵌入、segment嵌入、position嵌入、词性嵌入通过向量加法进行合并,得到输入文本的最终嵌入表示,以及相应的嵌入序列E;步骤3、将得到的嵌入序列E,输入到检错网络,并利用注意力机制来检错可能发生错的字符,输出错误序列L以及错误序列L的错误概率P;步骤4、将错误序列L和嵌入序列E输入到语言模型中,使用软遮盖编码将两者组合成SOFT'编码;步骤5、将SOFT'编码作为输入,利用预训练的BERT语言纠错模块和特征融合模块组成的纠错网络对错误字符进行纠正,最终输出正确字符。
主权项:1.一种基于多维动态候选集的文本纠错方法,其特征在于,包括如下步骤:步骤1、从汉字识别文本纠错的SIGHAN系列数据集中获取输入文本S;步骤2、对于输入文本S,通过文本编码器编码将token嵌入、segment嵌入、position嵌入、词性嵌入通过向量加法进行合并,得到输入文本的最终嵌入表示,以及相应的嵌入序列E=e1,e2,e3...,en表示;步骤3、将得到的嵌入序列E,输入到由若干Transformer模块组成的检错网络,并利用Transformer模块的注意力机制来检错可能发生错的字符,输出错误序列L以及错误序列L的错误概率P;步骤4、将错误序列L和嵌入序列E输入到语言模型中,使用软遮盖编码将两者组合成SOFT′编码;步骤5、将SOFT′编码作为输入,利用预训练的BERT语言纠错模块和特征融合模块组成的纠错网络对错误字符进行纠正,具体的:通过预训练的BERT语言纠错模块中的多头注意力机制执行多个注意力函数,从而捕获输入序列中不同位置的信息,输出纠错结果;然后通过预训练的BERT语言纠错模块中的前馈神经网络对输出纠错结果进行非线性变换,以增强模型的表达能力,其计算公式如下:FFNX=max0,XW1+b1W2+b2式中,X为输入的文本序列,W1,W2为权重矩阵,b1和b2为偏置值;最后,对于每个位置的纠错概率,采用softmax函数进行归一化,得到相应的字符概率;所述每个位置的纠错概率计算方法如下:Pcyi=j|X=softmaxWh′i+b2[j]式中,Pcyi=j|X表示在给定输入序列X的条件下,第i个字符被纠正为候选字符列表中第j个字符的概率,h′i是编码模块输出的隐藏状态,W和b2是模型参数;将纠错结果和错误序列,以及字符、字根和关键笔形特征一同输入特征融合模块中,通过字符相似度算法匹配字形相似候选字混淆集和领域字符混淆集,得到相似度匹配结果,然后将相似度匹配结果进行相似度概率求和,再进行归一化处理,然后,计算字符离散度,如果离散度算法不再改变,输出;反之,将归一化处理后的结果输入到预训练的BERT语言模型中多次迭代,直到字符离散度算法判定不再改变,最终输出正确字符。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种基于多维动态候选集的文本纠错方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。