Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种文本特征提取方法、文本分类方法及可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆长安汽车股份有限公司

摘要:本发明公开了一种文本特征提取方法、文本分类方法及可读存储介质,该文本特征提取方法,在TF‑IDF算法基础上,对分词前的文本预处理流程进行改进,包括语法纠错、实体词提取、句法依存关系分析、同义词表述一致性处理等,并在TF‑IDF的计算中引入依存关系因子参与对文本句子中重点特征词的加权计算,优化了重点特征词的重要性排名,同时并没有直接通过TF‑IDF值来表征特征词的重要性权重,而是对TF‑IDF值加以归一化转换计算为重要性占比来表征权重,解决了不同文本的特征词体量、长短句数量可能存在较大差异的问题,更好的保证了文本特征词提取的均衡性,使得提取的文本特征应用于文本问题分类应用中的分类客观性和准确性效果能够得到提升。

主权项:1.一种文本特征提取方法,其特征在于,包括如下步骤:S1:获取文本,并对文本进行语法错误识别和语法纠正处理;S2:对语法纠正处理后的文本进行实体词提取,并将提取的实体词收录至特征词典;S3:利用特征词典对语法纠正处理后的文本进行依存句法分析和分词处理,获得分词的特征词汇以及特征词汇间的依存关系信息;S4:对文本分词所得的特征词汇进行同义词搜索和同义词表述一致性处理;S5:对同义词表述一致性处理后的文本的特征词汇进行词频分布统计及依存关系统计,进而计算各特征词汇的词频、逆文本频率指数和依存关系分布因子,作为特征词汇的词频分布参数;步骤5具体为:S5.1:统计文本中分词所得的特征词汇总数以及每个特征词汇出现的次数,计算每个特征词汇的词频TF值;S5.2:统计文本总数以及包含每个特征词汇的文本数量,计算每个特征词汇的逆文本频率指数IDF值;S5.3:根据特征词汇间的依存关系信息,统计依存关系的总次数以及每个特征词汇在依存关系中出现的次数,计算每个特征词汇的依存关系分布因子: 其中,αi表示任意第i个特征词汇的依存关系分布因子,i∈{1,2,…,K},K表示文本中分词所得的特征词汇总数;ni,c表示任意第i个特征词汇在文本的主谓依存关系及动宾依存关系中出现次数,ni,o表示任意第i个特征词汇在文本的其它依存关系中出现的次数;Nc表示文本中主谓依存关系及动宾依存关系出现的总次数,No表示文本中其它依存关系出现的总次数;S6:根据所述词频分布参数计算文本中各特征词汇的TF-IDF值,并基于所述TF-IDF值计算各特征词汇在文本中的重要性占比权重,将文本的各特征词汇进行重要性占比权重标记和排序后的集合,作为文本的特征向量加以输出。

全文数据:

权利要求:

百度查询: 重庆长安汽车股份有限公司 一种文本特征提取方法、文本分类方法及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。