买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:人民网股份有限公司;人民网信息技术有限公司
摘要:本申请公开了一种拼写检查模型生成方法、装置、计算设备及存储介质,该方法包括:根据公开的第一字混淆集及第一语料数据集构建第二字混淆集;根据输入法构建的第二语料数据集及第一语料数据集构建词混淆集;从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语;基于预设混合掩码策略,利用第二字混淆集对多个待掩码字符进行掩码处理以及利用词混淆集对至少一个待掩码词语进行掩码处理,得到增强训练文本;基于原训练文本及增强训练文本进行模型训练,生成拼写检查模型。本申请实现了自动生成训练所需的增强训练样本,克服了中文拼写检查数据不足的问题,减少了人力标注成本,同时也大大提升了拼写检查模型的准确度。
主权项:1.一种拼写检查模型生成方法,包括:根据公开的第一字混淆集及第一语料数据集构建第二字混淆集;根据输入法构建的第二语料数据集及所述第一语料数据集构建词混淆集;从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语;基于预设混合掩码策略,利用所述第二字混淆集对多个待掩码字符进行掩码处理以及利用所述词混淆集对所述至少一个待掩码词语进行掩码处理,得到增强训练文本;基于原训练文本及增强训练文本进行模型训练,生成拼写检查模型;其中,所述根据公开的第一字混淆集及第一语料数据集构建第二字混淆集进一步包括:S1,对所述第一语料数据集中各第一语料数据进行切字处理,统计每个字的出现频次,保留出现频次排序在预设比率内的字;S2,根据S1所保留字对第一字混淆集进行过滤处理,筛除第一字混淆集中未出现在S1所保留字中的字,判断筛除后的第一字混淆集中任一第一易混淆字对是否字形结构相似和或字音相似,若字形结构及字音均不相似,则筛除第一易混淆字对;S3,生成S1所保留字中的各个字对应的字形结构和或拼音序列,根据字形结构和或拼音序列计算S1所保留字中的每个字与其它任一字之间的编辑距离,删除编辑距离小于或等于第一预设编辑距离阈值的易混淆字对,形成第二易混淆字对,其中,若S1所保留字中的任一字为多音字,则生成所述多音字对应的多个拼音序列,根据字形结构和或任一拼音序列计算S1所保留字中的每个字与其它任一字之间的编辑距离,若S1所保留字中的任一字包含有预设音节,则获取拼音序列中包含与所述预设音节成对的相似音节的字作为易混淆字,形成第二易混淆字对;S4,将筛除后的第一字混淆集中的第一易混淆字对与第二易混淆字对合并,作为第二字混淆集;所述第二语料数据集包括:第二语料数据对;所述根据输入法构建的第二语料数据集及第一语料数据集构建词混淆集进一步包括:对各第二语料数据对中两个第二语料数据进行分词处理,判断各分词位置对应的两个词语是否一致,若不一致,则确定两个词语为易混淆词语对;对所述第一语料数据集中各第一语料数据进行分词处理,统计各词语的词语长度;将词语长度一致的两个词语组成词语对,判断所述词语对中各字符位置对应的两个字是否字形结构相似和或字音相似,若各字符位置对应的两个字的字形结构相似和或字音相似,则确定所述词语对为易混淆词语对,根据易混淆词语对构建词混淆集;所述基于预设混合掩码策略,利用所述第二字混淆集对多个待掩码字符进行掩码处理以及利用所述词混淆集对所述至少一个待掩码词语进行掩码处理,得到增强训练文本进一步包括:针对任一待掩码词语,从所述词混淆集中随机选取所述待掩码词语对应的易混淆词语,并使用选取的易混淆词语替换所述待掩码词语;随机选取第一替换比例的待掩码字符,针对任一待掩码字符,从第二字混淆集中随机选取所述待掩码字符对应的易混淆字,并使用选取的易混淆字替换所述待掩码字符;随机选取第二替换比例的待掩码字符,将所述第二替换比例的待掩码字符替换为预设字符;随机选取第三替换比例的待掩码字符,将所述第三替换比例的待掩码字符替换为词表中的任意字。
全文数据:
权利要求:
百度查询: 人民网股份有限公司 人民网信息技术有限公司 拼写检查模型生成方法、装置、计算设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。