买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于多源数据和主题模型的技术清单生成方法,包括:获取与某个技术领域对应的多个科技文献,对该科技文献进行数据处理,并将处理后的多个科技文献存储在科技文献数据库中,将科技文献数据库中的所有科技文献输入训练好的支持向量机模型SVM中进行技术类别划分,并将技术类别划分结果存储在科技文献数据库中,将科技文献数据库中属于同一技术类别的科技文献合并为一个文档,所有文档形成文档库,对文档库先后进行停用词去除和低频词去除处理,以得到更新后的文档库,使用主题建模算法LDA对更新后的文档库进行主题聚类,以得到所有主题对应的单词分布矩阵。本发明能解决基于专家研判的方法存在的主观性强、成本较大的技术问题。
主权项:1.一种基于多源数据和主题模型的技术清单生成方法,其特征在于,包括以下步骤:1获取与某个技术领域对应的多个科技文献,对该科技文献进行数据处理,并将处理后的多个科技文献存储在科技文献数据库中;2将步骤1中得到的科技文献数据库中的所有科技文献输入训练好的支持向量机模型SVM中进行技术类别划分,并将技术类别划分结果存储在科技文献数据库中;3将经过步骤2处理后的科技文献数据库中属于同一技术类别的科技文献合并为一个文档,所有文档形成文档库;4对步骤3中获得的文档库先后进行停用词去除和低频词去除处理,以得到更新后的文档库;5使用主题建模算法LDA对步骤4中更新后的文档库进行主题聚类,以得到该文档库中所有主题对应的单词分布矩阵,并根据单词分布矩阵生成一级技术清单;6为步骤5中得到的一级技术清单中的每个主题构建词共现网络,使用Louvain算法对该主题对应的词共现网络进行聚类,以得到该主题对应的多个聚类簇团,对该主题对应的所有聚类簇团中的主题词内容进行分析,以得到该主题对应的二级技术清单;7将步骤5中获得的一级技术清单与步骤6中获得的二级技术清单进行关联,以生成完整的技术清单。
全文数据:
权利要求:
百度查询: 中国工程院战略咨询中心 华中科技大学 清华大学 一种基于多源数据和主题模型的技术清单生成方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。