首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于文本智能采集的敏感数据模型建立方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京壹行科技有限公司

摘要:本发明提供一种用于文本智能采集的敏感数据模型建立方法;涉及文本智能采集技术领域,方法包括:通过对文本数据进行分词获取待测单词合集;再对待测单词合集与敏感单词合集进行比较,筛选出第一敏感单词和深测文本,对深测文本进行关联度分析,得到类关联单词合集,最后对关联单词和敏感单词合集进行比较,筛选出第二敏感单词,融合第一敏感单词和第二敏感单词得到对应文本的敏感数据,本发明通过对文本数据进行重组提取敏感单词,能够识别文本数据中的特殊敏感词,以解决现有的敏感词识别方法不够精准,对于特殊表达的敏感词的识别存在不足的问题。

主权项:1.一种用于文本智能采集的敏感数据模型建立方法,其特征在于,所述方法包括如下步骤:步骤S1:获取文本数据,提取所述文本数据的待测单词,获取待测单词的单词特征设置为待测特征;步骤S2:从大数据中获取敏感单词数据库,提取所述敏感单词数据库的单词特征,得到敏感特征;步骤S3:根据敏感单词对待测单词进行比对,将比对结果一致的待测单词设置为第一敏感单词,对文本数据内的第一敏感单词进行筛除后得到深测文本;步骤S4:对深测文本进行敏感关联度分析,得到深测文本的关联单词和关联特征;所述步骤S4包括如下子步骤:步骤S401:获取深测文本,将深测文本进行关联度分析,得到类关联单词合集;步骤S402:统计类关联单词合集中的单词长度、单词词性和单词词频;步骤S403:获取类关联单词合集中的单词词频,对单词词频使用TFIDF算法计算单词权重;步骤S404:将待测单词合集中的单词和类关联单词合集中单词权重小于第二权重阈值的单词进行筛除,将剩余的单词设置为关联单词;步骤S405:将单词长度和单词词性设置为关联特征;所述步骤S401中关联度分析为:获取深测文本,对深测文本内的符号进行筛除;将筛除符号后的深测文本设置为筛除文本;使用ICTCLAS分词系统,对筛除文本进行分词,得到筛除单词合集;统计筛除单词合集中单词在筛除文本中的排序,对筛除单词合集中的单词按照排序进行编号,记为单词1至单词m,m为正整数;对筛除单词合集中的单词按照单词种类进行编号,记为单词1至单词n,n为正整数;根据编号对筛除单词合集中的单词进行命名,记为单词X1Z1至单词XmZn,对单词X1Z1至单词XmZn进行文本重组,将文本重组后得到的单词设置为重组单词,获取所有重组单词,设置为重组单词合集,将重组单词合集和筛除单词合集融合后得到类关联单词合集;步骤S5:根据敏感特征对关联单词进行比对,将比对结果一致的关联单词设置为关联敏感单词;步骤S6:获取关联敏感单词在深测文本中对应的单词,设置为第二敏感单词,将第一敏感单词与第二敏感单词融合,得到待测文本的敏感数据。

全文数据:

权利要求:

百度查询: 南京壹行科技有限公司 一种用于文本智能采集的敏感数据模型建立方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。