首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融合变体词识别的短文本审核方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院自动化研究所;国家计算机网络与信息安全管理中心

摘要:本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。

主权项:1.一种融合变体词识别的短文本审核方法,其特征在于,所述方法包括:步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词及其组合,其中敏感词还包括目标词;步骤S200,基于社交媒体平台获取待审核文本数据;步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;还设置有自动更新配置词库的步骤,包括:步骤S400A,基于所述目标词,通过预设的变体词算法获取所述有效可疑文本数据中变体词;所述变体词包括字音变体词、字形变体词、数字类变体词和拼音类变体词;步骤S400B,将所述变体词加入分词词表和所述配置词库;其中,步骤S400A包括:步骤S410A,基于所述可疑文本数据,通过汉语语言模型,获取所有与所述目标词长度相同的连续子字符串序列;步骤S420A,计算所述连续子字符串序列中的子字符串与目标词的字音相似度和字形相似度;步骤S430A,将字音相似度大于预设的字音变体阈值的子字符串作为字音变体词,将字形相似度大于预设的字形变体阈值的子字符串作为字形变体词;步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;所述统计特征向量,包括:变体词个数、文本长度、实体个数、数字占比、字母占比、特殊字符占比、动词个数、名词个数和相同字符的比例;将所述文本特征向量和统计特征向量通过横向拼接的方式融合;步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。

全文数据:

权利要求:

百度查询: 中国科学院自动化研究所 国家计算机网络与信息安全管理中心 融合变体词识别的短文本审核方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。