买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工程大学
摘要:一种基于异构引文网络的作者分类方法,具体涉及一种利用基于元结构的异构图表示学习的引文网络中作者的分类方法,为解决GNN方法对引文网络中的作者进行分类时,异构图表示学习的效率和准确率低,导致引文网络中作者分类效率和准确率低的问题。将某个领域的引文网络抽象为异构图,分别定义异构图及其包含的元路径和元图,异构图中节点类型包括文章、作者和会议;依次利用图结构学习器、图结构扩展器和图结构筛选器对异构图进行处理得到筛选的新图结构;根据HAN模型构建图结构分析器,利用图结构分析器对筛选的新图结构进行节点嵌入,完成引文网络的异构图表示学习,根据异构图表示学习对作者进行分类,得到分类后的作者。属于作者分类领域。
主权项:1.一种基于异构引文网络的作者分类方法,其特征在于:它包括以下步骤:S1、将某个研究领域的引文网络抽象为异构图,分别对异构图、异构图中包含的元路径和元图进行定义;S2、利用图结构学习器对异构图进行采样和重新组合,得到新子图,将新子图以矩阵的方式相乘得到新图结构,利用图结构扩展器对新图结构进行扩展,得到扩展后的新图结构,利用图结构筛选器对扩展后的新图结构进行多样性定义和筛选,得到筛选后的新图结构;S3、根据HAN模型构建图结构分析器,在图结构分析器内,将筛选后的新图结构作为图卷积网络GCN的输入,输出节点嵌入,利用多层感知机对节点嵌入进行非线性转换,以非线性转换后的节点嵌入与一个语义层次注意力向量的相似性测量每一个特定图结构在特定语义节点嵌入下的权重,将权重与特定语义节点嵌入进行融合,得到最终的节点嵌入,完成引文网络的异构图表示学习,根据异构图表示学习对S1中某个研究领域的引文网络的作者进行分类,得到分类后的作者;所述S1具体过程为:S11、对异构图进行定义:将某个研究领域的引文网络抽象为异构图,定义异构图为G=V,E,异构图的关系模式为TG=Tv,Te,其中,V为异构图中节点的集合,E为异构图中边的集合,Tv为异构图中节点类型的集合,节点类型包括某个领域的文章P、作者A和会议C,Te为异构图中边类型的集合,边类型包括P-A、A-P、P-C、C-P;根据异构图中任意两个节点得到对应的边类型,将每个边类型用一个邻接矩阵A进行存储,A∈RN×N,其中N=|V|,则可以用邻接矩阵存储异构图,即异构图包括多个邻接矩阵,那么异构图为张量K表示边类型的种类;每个邻接矩阵实际上就是一个子图;S12、将引文网络中节点间的关系抽象为元结构,元结构包含元路径和元图,元路径是在异构图上连接不同类型边的一条路径;S13、基于异构图定义元路径:定义表示元路径,v1表示异构图中第一个节点、v2表示异构图中第二个节点、vl+1表示异构图中第l+1个节点,e1表示元路径中第1种类型的边,e2表示元路径中第2种类型的边,el表示元路径中第l种类型的边,el∈Te;S14、基于异构图定义元图:元图M是一个具有单个源节点vs和单个目标节点vt的有向无环图,即vs的入度为0,vt的出度为0,所以用M=VM,EM,AM,RM,vs,vt表示元图,其中,VM表示元图M中节点的集合,EM表示元图M中边的集合,AM表示元图M中节点类型的集合,RM表示元图M中边类型的集合;所述S2具体过程为:S21、定义存在多个图结构生成层,每个图结构生成层由l个图结构学习器组成,利用某个图结构学习器对S11中异构图的张量进行采样,得到多个子图Ai,将所有子图重新组合,得到一个新子图Q,则针对l个图结构学习器得到l个新子图,将l个新子图以矩阵的形式相乘得到包含长度从1到l元路径类型元结构的新图结构H,即一个图结构生成层得到一个新图结构H,多个图结构生成层得到多个新图结构H,多个新图结构H组成新图结构的张量S22、利用图结构扩展器对新图结构的张量进行扩展,得到扩展后的新图结构的张量,扩展后的新图结构包含元图类型元结构;S23、利用图结构筛选器对扩展后的新图结构的张量进行多样性定义和筛选,得到筛选后的新图结构的张量;所述S21具体过程为:S211、定义存在多个图结构生成层,每个图结构生成层由l个图结构学习器组成,图结构生成层的数量表示为通道数C;S212、在每个图结构学习器内,对S11中异构图的张量进行采样,得到多个子图Ai,利用两个1×1的卷积层获得所有子图Ai的权重,对权重进行加权重组,得到一个新子图Q: 其中,φ代表卷积层,Wφ代表φ的参数,Ai,αi分别代表异构图和Wφ中的子元素;针对每个图结构生成层内的l个图结构学习器得到l个新子图Q1、Q2、…Ql;S213、将l个新子图以矩阵的形式相乘得到包含长度从1到l元路径类型元结构的新图结构H:H=Q1Q2…Ql2其中,是长度为l的元结构在第tl个图结构学习器中的权重,得到长度为l的元结构的新图结构H: 则一个图结构生成层得到一个新图结构H,多个图结构生成层得到多个新图结构H,多个新图结构H组成新图结构的张量 其中,取决于通道数量C;所述S22具体过程为:图结构扩展器为哈达玛积操作,从新图结构的张量中任意选择两个邻接矩阵Hi和Hj,利用哈达玛积对Hi和Hj进行扩展,得到包含元图类型元结构新图结构HHP,由于图结构可作为图矩阵,所以对新图结构HHP采用基于矩阵行值的归一化方法,用图矩阵每一行的总值对图矩阵中每个元素进行归一,得到扩展后的新图结构,重复执行上述操作,得到多个新图结构HHP,多个新图结构HHP组成扩展后的新图结构的张量所述S23具体过程为:给定一个集成模型HC以及权重αt,得到amb多样性测量方法,amb多样性测量方法的定义为,对于每个结果都求它和其他所有结果的差值;利用amb多样性测量方法对不同图结构的信息进行多样性定义;多样性定义相当于对图结构两两做差并取绝对值,将差值绝对值定义为两个图结构之间的距离;对于任意一个图结构,它的多样性定义为它和所有其他图结构的距离之和;计算新图结构的张量和扩展后的新图结构的张量中所有新图结构Hi的多样性,并将多样性从大到小进行排序,选取多样性最大的P个新图结构以图结构张量的形式作为图结构筛选器的输出。
全文数据:
权利要求:
百度查询: 哈尔滨工程大学 一种基于异构引文网络的作者分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。