买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:青岛大学
摘要:本发明属于计算机自然语言处理技术领域,涉及一种基于复合网络与图注意力机制的社区话题分类方法,具体步骤包括:数据预处理、提取关键词、初始化特征、建立两个图结构、建立图注意力神经网络分类模型和输出节点分类;针对社区话题数据集的特点,从关键信息以及话题本身内容两方面出发,建立关键词‑话题复合复杂网络,然后抽取话题节点的两种图结构,利用双层注意力机制更新特征并用于节点分类任务;本发明中所提方法与其他现有模型相比取得了更好的分类效果,分类准确率高;为热点话题发现提供了保障。
主权项:1.一种基于复合网络与图注意力机制的社区话题分类方法,其特征在于,具体步骤包括:S1、数据预处理:对获取的话题数据集使用规则过滤库进行无关信息过滤;S2、提取关键词:使用集成算法提取预处理后的话题数据中的关键词,同时使用百度自然语言处理工具进行分词监督,并去掉停用词和命名实体;S3、初始化特征:对预处理后的数据进行初始化处理,利用word2vec和BiLSTM预训练模型得到话题集T的初始特征矩阵X={x1,x2,...,xn};S4、建立两个图结构:利用预处理后的话题数据集为整个数据集建立关键词-话题复合网络,在网络中抽取得到两个图结构:关键词与话题所属关系映射图结构和话题相似度图结构;S5、建立图注意力神经网络分类模型:并利用随机梯度下降法对该模型进行训练,直到损失函数收敛为止,保留模型的最优参数;S6、输出节点分类:待分类的话题数据进入训练后的图注意力神经网络分类模型后,得到节点特征,将节点特征通过softmax分类器得到模型预测的数据所属标签。
全文数据:
权利要求:
百度查询: 青岛大学 一种基于复合网络与图注意力机制的社区话题分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。