买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:贵州电网有限责任公司
摘要:本发明公开了自然语言处理技术的文档分类与热点话题生成方法及系统,涉及自然语言处理技术领域,包括:收集需要分类的原始文档数据集;使用分词算法将原始文档数据集切分为词汇单元;基于词汇单元对文档数据集进行基本特征提取;通过基本特征对原始文档数据集进行类别划分,获得分类文档;获取话题在分类文档中分布和关联,并识别出高频话题作为热点话题。本发明显著提高了文档处理的效率和准确性。通过结合基于规则和基于统计的分词方法,精确的TF‑IDF特征提取技术以及先进的潜在狄利克雷分配LDA模型,本发明能够有效处理大规模文档数据集,精准地识别并提取关键特征,以及准确地生成和识别热点话题。
主权项:1.自然语言处理技术的文档分类与热点话题生成方法,其特征在于,包括:收集需要分类的原始文档数据集;使用分词算法将所述原始文档数据集切分为词汇单元;基于词汇单元对所述文档数据集进行基本特征提取;通过基本特征对原始文档数据集进行类别划分,获得分类文档;获取话题在分类文档中分布和关联,并识别出高频话题作为热点话题。
全文数据:
权利要求:
百度查询: 贵州电网有限责任公司 自然语言处理技术的文档分类与热点话题生成方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。