买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学
摘要:本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,属于自然语言处理中的文本主题分类技术领域。本发明实现方法为:对微博文本数据进行预处理,包括数据清洗、中文分词和去除停用词;使用TF‑IDF方法计算特征向量。将预处理后的文本数据映射到双曲空间,利用指数映射和对数映射在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的层次结构特征。计算节点间的双曲距离并结合层次聚类算法,捕捉层次结构数据中的关系。相似或相关的节点能够在双曲图卷积网络的信息聚合过程中获得更高的权重,挖掘文本数据的层次结构,通过训练双曲图卷积神经网络捕捉微博文本数据的层次结构关系,利用训练好的双曲图卷积神经网络实现高质量的主题分类。
主权项:1.一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:包括以下步骤,步骤一:采集指定话题下的微博文本,对文本数据进行预处理,并对微博文本的主题类别进行标注,得到标注后的微博文本数据集,将微博文本数据集作为后续步骤二用于微博文本向量化的输入;所述预处理包括数据清洗、中文分词、去停用词;步骤二:对于步骤一得到的微博文本数据集中的微博文本,在欧几里得空间E中通过TF-IDF方法计算所述微博文本的特征向量,将微博文本转换为向量形式,向量每个维度对应一个词语的TF-IDF值,即得到每条微博文本对应的特征向量xE;步骤三:根据步骤二得到的每条微博文本对应的特征向量xE,根据余弦相似度的公式计算词向量间的相似度,并建立用于双曲图卷积网络的邻接矩阵M;步骤四:利用指数映射将步骤二得到每条微博文本对应的特征向量xE映射到双曲空间,在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的双曲结构特征x0,H作为步骤五的输入:步骤五:以步骤四得到的双曲特征x0,H为输入,根据双曲空间的映射特征后计算节点间的双曲距离公式计算节点间的双曲距离;层次聚类算法根据双曲距离捕捉层次结构数据中的关系,得到代表在双曲空间中邻接矩阵,作为双曲图卷积网络的输入;步骤六:将双曲特征向量x0,H与邻接矩阵G输入到双曲图卷积网络中,在双曲图卷积网络完成层次信息提取;双曲图卷积网络通过特征转换、邻域聚合以及非线性激活三个步骤实现节点信息的更新;在主题分类层利用Softmax函数将双曲图卷积网络输出的值转化为概率值,所述概率值代表不同主题类别的可能性,用于执行主题分类;选取概率最高的主题作为预测的分类结果;步骤七:结合损失函数训练步骤六构建的双曲图卷积网络,得到训练好的双曲图卷积网络;步骤八:将待分类的微博文本输入到训练好的双曲图卷积网络,得到待分类的微博文本主题分类结果,即基于双曲图卷积网络和层次聚类实现微博文本的主题分类。
全文数据:
权利要求:
百度查询: 北京理工大学 一种基于双曲图卷积网络和层次聚类的主题分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。