买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种汉字串匹配预判方法,首先将所有汉字依照频度进行重新编码;然后将编码后的汉字进行变换,得到归并和首尾两种模式;存储汉字串及其归并模式,然后按照首尾模式建立索引;以输入的汉字串为子串,预先存储的所有汉字串为母串,对每个母串进行预判,判断匹配是否成功;本发明的一种汉字串匹配预判方法在匹配之前先进行预判,如果预判成功才进行匹配操作;如果预判不成功,则不进行匹配操作。在预判操作次数明显少于母串个数,预判本身又费时不多时,将显著节省运算时间。
主权项:1.一种汉字串匹配预判方法,其特征在于,具体按以下步骤实施:步骤1,将所有汉字依照频度进行重新编码;具体按以下步骤实施:步骤1.1,将所有汉字按照频度从大到小的顺序排列;步骤1.2,创建一个表,包含G*2组,每组C2个代码,共G*C个元素;每个元素包含组号、代码号、一个暂时为空的汉字集合、一个暂时为0的频度值;步骤1.3,将汉字逐个填入经步骤1.2建立的表;步骤1.4,将经步骤1.3填好的表的元素转入一个二维表,该二维表有C2行,每行G*2列,按组号对应列号,代码号对应行号的规则填入;步骤1.5,根据元素的编码频度将步骤1.4得到的二维表按列重新排序;奇数列按元素编码频度从小到大的顺序排列;偶数列按元素编码频度从大到小的顺序排列;步骤1.6,偶数列合并到前1列,即原第2列合并到原第1列,原第4列合并到原第3列,……,原第G*2列合并到原G*2-1列;合并方法是,奇数列的各行保持不变,增加新行,将偶数列的各元素按原第1行到第N2行的顺序逐个增加为新行,每个元素1行,最终得到一个N行G列的新二维表;步骤1.7,以步骤1.6得到的新二维表的列号为组号,行号为代码号,重新分配每个元素的组号、代码号,这样,每个汉字都有了一个编码;步骤2,将经步骤1编码后的汉字进行变换,得到归并和首尾两种模式;步骤3,存储汉字串及其归并模式,然后按照首尾模式建立索引;具体按以下步骤实施:步骤3.1,建立汉字串表,为空表,当前行号设置为0;步骤3.2,建立首尾模式索引表,一次性添加所有行C*C+1*nMax2行,每行的每个开始行号、结束行号的值设为0;步骤3.3,在表中存储一个汉字串;步骤3.4在表中删除一个汉字串;步骤4,以输入的汉字串为子串,预先存储的所有汉字串为母串,对每个母串进行预判,判断匹配是否成功。
全文数据:
权利要求:
百度查询: 武汉易知鸟科技有限公司 一种汉字串匹配预判方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。