首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种使用LDA的文本分类筛选方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海金桥信息股份有限公司

摘要:本发明提出了一种使用了LDA的文本分类筛选方法,包括:获取一个数据集,内容包括多个短句;使用自然语言处理方法,对数据进行预处理,以及进行清洗和整理;确定一个主题,人工选择若干符合主题的文本句子;用所述选择的文本句子,使用词袋模型建立对应文本向量矩阵;用所述向量矩阵去训练第一LDA模型;用所述第一LDA模型筛选文本中剩余的句子,计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性,并以此作为评价一个句子是否满足选定主题模型的阈值;加入通过话题相关性筛选的文本,再训练第二LDA模型;用所述第二LDA模型,对文本中剩余的句子再用余弦相似去判断和筛选;将所述总共三次筛选的句子作为符合筛选目标的文本数据。

主权项:1.一种使用LDA的文本分类筛选方法,其特征在于,包括如下步骤:(1)获取一个数据集,内容包括多个文本;(2)使用自然语言处理方法,对数据进行预处理,包括进行清洗和整理;(3)确定一个主题,并人工筛选若干符合主题的文本;(4)筛选文本使用词袋模型将所选文本转换为文本向量矩阵;(5)使用该文本向量矩阵训练一个第一LDA模型;(6)使用第一LDA模型对文本进行筛选:计算每个文本与LDA模型生成的主题词之间的相关性,设置相关性阈值,根据该阈值筛选出符合主题的文本;(7)将通过初步筛选的文本加入到步骤(5)中的训练数据中,训练一个第二LDA模型;(8)使用第二LDA模型,对剩余文本进行二次筛选:使用余弦相似度计算每个文本与主题词的相关性,再次筛选符合主题的文本;(9)通过人工筛选、LDA主题筛选和余弦相似度筛选,总共三次筛选的文本作为符合筛选目标的文本数据;在步骤4中,将每个文本利用词袋模型进行向量化处理,词袋模型将文本视为若干个词汇的集合,文本中每个单词的出现都是独立的,不依赖于其它单词的出现,然后利用向量化数据,计算生成词频DT矩阵矩阵,即文本-词矩阵;在步骤5中,设定文本要分类的主题数量,利用DT矩阵训练第一LDA模型,具体过程如下:首先,假设每个文本的主题分布服从狄利克雷分布,得到每个文本的话题分布参数;然后,随机生成每个文本的主题分布,对于文本中的每个单词位置,根据该文本的主题分布随机筛选一个主题;接着,假设每个主题的单词分布也服从狄利克雷分布,得到每个主题的单词分布参数;根据选定的主题,从该主题的单词分布中随机生成一个单词;重复以上过程,直到生成完整的文本;最后,重复这一过程,生成所有文本的主题分布和单词分布。

全文数据:

权利要求:

百度查询: 上海金桥信息股份有限公司 一种使用LDA的文本分类筛选方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。