拼写检查模型生成方法、装置、计算设备及存储介质

导航：龙图腾网> 最新专利技术> 拼写检查模型生成方法、装置、计算设备及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：人民网股份有限公司;人民网信息技术有限公司

摘要：本申请公开了一种拼写检查模型生成方法、装置、计算设备及存储介质，该方法包括：根据公开的第一字混淆集及第一语料数据集构建第二字混淆集；根据输入法构建的第二语料数据集及第一语料数据集构建词混淆集；从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语；基于预设混合掩码策略，利用第二字混淆集对多个待掩码字符进行掩码处理以及利用词混淆集对至少一个待掩码词语进行掩码处理，得到增强训练文本；基于原训练文本及增强训练文本进行模型训练，生成拼写检查模型。本申请实现了自动生成训练所需的增强训练样本，克服了中文拼写检查数据不足的问题，减少了人力标注成本，同时也大大提升了拼写检查模型的准确度。

主权项：1.一种拼写检查模型生成方法，包括：根据公开的第一字混淆集及第一语料数据集构建第二字混淆集；根据输入法构建的第二语料数据集及所述第一语料数据集构建词混淆集；从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语；基于预设混合掩码策略，利用所述第二字混淆集对多个待掩码字符进行掩码处理以及利用所述词混淆集对所述至少一个待掩码词语进行掩码处理，得到增强训练文本；基于原训练文本及增强训练文本进行模型训练，生成拼写检查模型；其中，所述根据公开的第一字混淆集及第一语料数据集构建第二字混淆集进一步包括：S1，对所述第一语料数据集中各第一语料数据进行切字处理，统计每个字的出现频次，保留出现频次排序在预设比率内的字；S2，根据S1所保留字对第一字混淆集进行过滤处理，筛除第一字混淆集中未出现在S1所保留字中的字，判断筛除后的第一字混淆集中任一第一易混淆字对是否字形结构相似和或字音相似，若字形结构及字音均不相似，则筛除第一易混淆字对；S3，生成S1所保留字中的各个字对应的字形结构和或拼音序列，根据字形结构和或拼音序列计算S1所保留字中的每个字与其它任一字之间的编辑距离，删除编辑距离小于或等于第一预设编辑距离阈值的易混淆字对，形成第二易混淆字对，其中，若S1所保留字中的任一字为多音字，则生成所述多音字对应的多个拼音序列，根据字形结构和或任一拼音序列计算S1所保留字中的每个字与其它任一字之间的编辑距离，若S1所保留字中的任一字包含有预设音节，则获取拼音序列中包含与所述预设音节成对的相似音节的字作为易混淆字，形成第二易混淆字对；S4，将筛除后的第一字混淆集中的第一易混淆字对与第二易混淆字对合并，作为第二字混淆集；所述第二语料数据集包括：第二语料数据对；所述根据输入法构建的第二语料数据集及第一语料数据集构建词混淆集进一步包括：对各第二语料数据对中两个第二语料数据进行分词处理，判断各分词位置对应的两个词语是否一致，若不一致，则确定两个词语为易混淆词语对；对所述第一语料数据集中各第一语料数据进行分词处理，统计各词语的词语长度；将词语长度一致的两个词语组成词语对，判断所述词语对中各字符位置对应的两个字是否字形结构相似和或字音相似，若各字符位置对应的两个字的字形结构相似和或字音相似，则确定所述词语对为易混淆词语对，根据易混淆词语对构建词混淆集；所述基于预设混合掩码策略，利用所述第二字混淆集对多个待掩码字符进行掩码处理以及利用所述词混淆集对所述至少一个待掩码词语进行掩码处理，得到增强训练文本进一步包括：针对任一待掩码词语，从所述词混淆集中随机选取所述待掩码词语对应的易混淆词语，并使用选取的易混淆词语替换所述待掩码词语；随机选取第一替换比例的待掩码字符，针对任一待掩码字符，从第二字混淆集中随机选取所述待掩码字符对应的易混淆字，并使用选取的易混淆字替换所述待掩码字符；随机选取第二替换比例的待掩码字符，将所述第二替换比例的待掩码字符替换为预设字符；随机选取第三替换比例的待掩码字符，将所述第三替换比例的待掩码字符替换为词表中的任意字。

全文数据：

权利要求：

百度查询：人民网股份有限公司人民网信息技术有限公司拼写检查模型生成方法、装置、计算设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：治疗与S1P₁受体有关的病况的方法

下一篇：基于Ceph存储系统的数据读取处理、装置

相关技术

治疗与S1P₁受体有关的病况的方法

基于Ceph存储系统的数据读取处理、装置

一种用于宽带卷积处理的二维智能边缘器件及其低热预算的制备方法和应用

调整探针的突出长度的探针头

卫星负载等效器智能平台管理控制装置及负载等效器

用于跨平台渲染的方法、装置、计算机可读介质和计算机程序产品

可重构射频波形的无线充电

一种新型高强度三维土工格栅加工系统

基于食材特性的烹饪控制方法及装置

一种异辛烷抗静电剂加注装置及加注工艺

一种热压装置和电池生产设备

一种尖峰电压抑制电路及其控制方法

方法相关技术

操作指导方法、高炉的操作方法、铁水的制造方法、操作指导装置_杰富意钢铁株式会社_202180047086.1

图像处理模型训练方法、图像处理方法、视频处理模型训练方法及视频处理方法_阿里巴巴(中国)有限公司_202410891514.4

样本构建方法、代码处理方法及电子设备_浙江大华技术股份有限公司_202411469887.9

搬送装置、移载方法、搬送方法及半导体装置的制造方法_JSW阿克迪纳系统有限公司_202280094733.9

数据存储方法、读取方法、装置及电子设备_平凯星辰(北京)科技有限公司_202411467374.4

无线接入处理方法、信息传输方法及设备_维沃移动通信有限公司_202210435209.5

测试结构、失效定位方法以及失效分析方法_上海华力集成电路制造有限公司_202411037918.3

请求处理方法、页面展示方法和装置_中国建设银行股份有限公司_202411164829.5

模型训练方法及元数据处理方法_中电信人工智能科技(北京)有限公司_202410990728.7

癌症预后方法_广州燃石医学检验所有限公司_202110496484.3

装置相关技术

面发光装置、显示装置以及照明装置_松下知识产权经营株式会社_202380031514.0

光源装置及包括光源装置的显示装置_三星显示有限公司_201911354799.3

吸烟装置与吸烟装置的切换装置_深圳市双盈电子科技有限公司_202420184359.8

编码装置、解码装置、以及记录介质_松下电器(美国)知识产权公司_202410826083.3

制动装置、驱动单元和工业装置_ABB瑞士股份有限公司_202080106699.3

编码装置、解码装置、以及记录介质_松下电器(美国)知识产权公司_202410826078.2

电化学装置和电子装置_宁德新能源科技有限公司_202411072267.1

密封装置以及铣轮装置_徐州景安重工机械制造有限公司_202411050805.7

电化学装置和电子装置_宁德新能源科技有限公司_202411070203.8

天线装置和通信装置_株式会社村田制作所_202080058233.0

计算相关技术

计算设备、光信号内存扩展设备和计算系统_超聚变数字技术有限公司_202420358394.7

光电计算系统_光子智能私营科技有限公司_202110243632.0

光电计算系统_光子智能私营科技有限公司_202110243631.6

光电计算系统_光子智能私营科技有限公司_202110243845.3

光电计算装置_光子智能私营科技有限公司_202110243625.0

电源和计算设备_超聚变数字技术有限公司_202323552979.7

视频剧本生成方法、计算设备、计算机存储介质及计算机程序产品_五八畅生活(北京)信息技术有限公司_202411253366.X

一种计算设备_超聚变数字技术有限公司_202323547984.9

自动药物设计方法、系统、计算设备及计算机可读存储介质_深圳智药信息科技有限公司_202011020214.7

一种交互方法、装置、计算设备及计算机程序产品_北京集度科技有限公司_202411053734.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

拼写检查模型生成方法、装置、计算设备及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务