买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:苏宁云计算有限公司
摘要:本申请涉及一种文本内容检测方式确定方法、装置、计算机设备和存储介质。该方法包括:获取待检测文本内容;从待检测文本内容中确定当前检测对象;根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。采用本方法能够减少文本内容的无效检测,从而提高文本内容的检测效率。
主权项:1.一种文本内容检测方式确定方法,其特征在于,所述方法包括:获取待检测文本内容,所述待检测文本内容为待检测中文文本内容,待检测英文文本内容,待检测字符串中的至少一个;所述待检测中文文本内容是指中文文本内容,文本内容由中文汉字组成,所述待检测英文文本内容是指英文文本内容,文本内容由大小写字母组成的;所述待检测字符串是指是由一串字符组成的字符串,所述字符包括字母、数字、运算符号、标点符号、其他符号以及功能性符号;从所述待检测文本内容中确定当前检测对象;其中,若所述待检测文本内容为待检测中文文本内容,则当前检测对象是目标中文汉字,若所述待检测文本内容为待检测英文文本内容,则当前检测对象是目标英文单词,若待检测文本内容为待检测字符串,则当前检测对象是目标英文字母、数字、运算符号、标点符号、其他符号或者功能性符号;根据所述当前检测对象对所述待检测文本内容进行特征处理,得到与所述待检测文本内容对应的当前位置距离特征集合;获取候选文本内容,根据所述当前检测对象对所述候选文本内容进行特征处理,得到与所述候选文本内容对应的候选位置距离特征集合;其中,所述候选文本内容为用于检测所述待检测文本内容的标准文本内容;根据所述当前位置距离特征集合和所述候选位置距离特征集合确定所述待检测文本内容的检测方式;所述根据所述当前位置距离特征集合和所述候选位置距离特征集合确定所述待检测文本内容的检测方式,包括:在所述当前位置距离特征集合与所述候选位置距离特征集合匹配时,确定所述待检测文本内容的检测方式为所述待检测文本内容中各个检测对象进行逐个检测;在所述当前位置距离特征集合与所述候选位置距离特征集合不匹配时,确定所述待检测文本内容的检测方式为不进行所述待检测文本内容的检测;其中,若所述当前位置距离特征集合中各个所述当前位置距离特征在所述候选位置距离特征集合中存在相同的所述位置距离特征,且各个所述当前位置距离特征在所述当前位置距离特征集合中的位置与在所述候选位置距离特征集合中的位置相同,则表明在所述当前位置距离特征集合与所述候选位置距离特征集合匹配;所述根据所述当前检测对象对所述待检测文本内容进行特征处理,得到与所述待检测文本内容对应的当前位置距离特征集合,包括:获取所述当前检测对象在所述待检测文本内容中的第一位置;根据指定顺序遍历所述待检测文本内容,获取所述待检测文本内容中的上一个当前检测对象;获取所述上一个当前检测对象在所述待检测文本内容中的第二位置;根据所述第一位置和所述第二位置计算得到所述当前检测对象在所述待检测文本内容的当前位置距离特征;获取下一个当前检测对象,将所述下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历所述待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征;根据所述各个当前待检测对象对应的当前位置距离特征生成所述待检测文本内容对应的当前位置距离特征集合。
全文数据:
权利要求:
百度查询: 苏宁云计算有限公司 文本内容检测方式确定方法、装置、设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。