深圳市百川数安科技有限公司刘堡萱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市百川数安科技有限公司申请的专利一种音近敏感词的扩展方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114969294B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210613700.2,技术领域涉及:G06F16/3329;该发明授权一种音近敏感词的扩展方法是由刘堡萱;文成明设计研发完成,并于2022-05-31向国家知识产权局提交的专利申请。
本一种音近敏感词的扩展方法在说明书摘要公布了:本发明提供了一种音近敏感词的扩展方法,包括:对合法拼音表中的拼音两两组合;获取每个两两组合结果的编辑距离,并根据编辑距离提取得到音近拼音组,构建得到拼音‑音近拼音表;基于拼音‑音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换,并基于拼音‑汉字表,将替换的任意字拼音映射成文字,构造得到候选音近词;对候选音近词进行预判断,实现对敏感词数据库的补充扩展。通过使用已有敏感词库和音近词表,推测黑产可能会使用的敏感词的音近字变体,来前置的解决整个环节的漏放可能性大、耗时长等特性,进而提高所提取关键词的有效性。
本发明授权一种音近敏感词的扩展方法在权利要求书中公布了:1.一种音近敏感词的扩展方法,其特征在于,包括: 步骤1:对合法拼音表中的拼音两两组合; 步骤2:获取每个两两组合结果的编辑距离,并根据所述编辑距离提取得到音近拼音组,构建得到拼音-音近拼音表; 步骤3:基于所述拼音-音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换,并基于拼音-汉字表,将替换的任意字拼音映射成文字,构造得到候选音近词; 步骤4:对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展; 其中,对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展的过程中,还包括: 溯源所述敏感词数据库,提取与所述候选音近词相关的初始历史敏感词,构建不同初始历史敏感词的初始衍生链,并结合网络敏感词爬取结果,对所述初始衍生链进行优化,得到历史衍生链; 判断每个历史衍生链中的初始敏感词中是否存在字母字符,并将存在字母字符的历史衍生链视为第一类,并对所述初始敏感词中不存在字母字符的历史衍生链中的剩余历史敏感词中是否存在字母字符进行再次判断; 根据再次判断结果,提取剩余敏感词中不存在字母字符的历史衍生链,并视为第二类,同时,将剩余历史衍生链,视为第三类; 确定所述历史衍生链中初始历史敏感词对应的初始历史拼音以及每次衍生之后的修改历史拼音,获取得到历史拼音追溯信息; 统计同个历史衍生链中的不同历史敏感词的历史搜索时间集以及历史搜索频率集,构建同个历史衍生链的第一曲线图; 按照所述历史拼音追溯信息,获取所述同个历史衍生链的历史衍生总时长以及每个衍生阶段的衍生分时长,构建得到第二曲线图; 基于曲线分析模型,对所述第一曲线图以及第二曲线图进行预分析,同时,结合对应的同个历史衍生链的分类类型,得到对应同个历史衍生链中不同历史敏感词的第一敏感贡献程度以及对应的同个历史衍生链的第二敏感贡献程度; 从所述同个历史衍生链中提取第一敏感贡献程度大于第一预设敏感贡献程度的第一敏感词,并按照第一敏感贡献程度对同个历史衍生链中的所有第一敏感词进行排序; 当所述第二敏感贡献程度大于第二预设敏感程度时,依据排序结果,建立对应的第一敏感词与对应的同个历史衍生链的第一映射关系; 否则,依据排序结果,建立对应的第一敏感词的第二映射关系; 基于敏感变化捕捉模型,对所有第一映射关系、第二映射关系进行捕捉分析,输出得到敏感变化规律,基于所述敏感变化规律,构建敏感词汇辅助变化列表; 基于所述敏感词汇辅助变化列表,确定对所述候选音近词的词汇调整类型; 基于所述词汇调整类型,确定对应的调整音近词; 其中,得到对应同个历史衍生链中不同历史敏感词的第一敏感贡献程度以及对应的同个历史衍生链的第二敏感贡献程度,包括: 根据如下公式,计算对应的同个历史衍生链中不同历史敏感词的第一敏感贡献程度; 其中,表示对应的同个历史衍生链中的第i个历史敏感词的历史搜索时间集的总搜索时长;表示对应的第i个历史敏感词的历史搜索时间集;表示对应的同个历史衍生链中的第i个历史敏感词的历史搜索频率集的总搜索频率;表示对应的第i个历史敏感词的历史搜索频率集;表示所统计的对第i个历史敏感词的搜索频率;表示对应的同个历史衍生链中的第i个历史敏感词对应的衍生分时长;表示对应的同个历史衍生链的历史衍生总时长;表示所统计的对对应同个历史衍生链中所有历史敏感词的总搜索频率; 根据如下公式,计算对应的同个历史衍生链的第二敏感贡献程度Y; 其中,表示对应的同个历史衍生链的分类类型,当为第一类时,取值为0.9,当为第二类时,取值为0.8,当为第三类时,取值为1;N表示对应的同个历史衍生链中包含的历史敏感词的总个数;表示对应的同个历史衍生链中的第i个历史敏感词的历史修改距离;表示对应的同个历史衍生链中的第i个历史敏感词基于历史搜索时间集t以及历史搜索频率集p得到的第一敏感贡献程度;表示对应的同个历史衍生链中的所有历史敏感词基于历史搜索时间集t以及历史搜索频率集p得到的总敏感贡献程度;表示基于第二曲线图确定的同个历史衍生链中的第i个历史敏感词对应的时间衍生因子;表示基于第一曲线图确定的同个历史衍生链中的第i个历史敏感词对应的敏感贡献因子; 基于所有第一敏感贡献程度与第二敏感贡献程度进行第一敏感词的提取。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市百川数安科技有限公司,其通讯地址为:518000 广东省深圳市南山区蛇口街道渔一社区后海大道1021号东角头工业区BC座C631;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励