首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于图神经网络的多阶段自训练社交机器人检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学

摘要:本发明提供了一种基于图神经网络的多阶段自训练社交机器人检测方法。本发明首先利用全连接神经网络以及LSTM分别对社交媒体上用户的基本信息以及其用户发表的推文信息进行处理,并利用双向长短期记忆网络融合不同类型的用户信息作为用户的属性特征。为了对用户属性以及用户之间的拓扑关系进行处理,本发明利用少量标记数据对改进的RGCN进行训练,并利用训练好的RGCN获得未标记数据的预测,结合不确定性感知和深度聚类机制为未标记数据赋予伪标签。最后利用扩充的标记数据集继续对检测模型进行训练,重复该过程,直到模型性能不再变化。在Twibot‑20数据集上的准确率达到0.9259,证明了在缺乏足够标记数据的情况下有效。

主权项:1.一种基于图神经网络的多阶段自训练社交机器人检测方法,其特征在于包括以下步骤:基于步骤1、数据预处理,对用户个人资料及推文进行编码首先获取Twibot20数据集,从该数据集中获取与账户相关的数字特征,分类特征,描述特征以及推文特征;数字特征数字特征方面,首先对这些获得的数字特征进行z-score归一化处理,并将其通过一个全连接网络来获得其最终表示rn∈RD4×1,D为用户的嵌入维度,这里D的值为128,R为实数集; 其中n为用户的数字特征,Wn,bn分别为与数字特征相关的权重矩阵和偏置系数,二者的初始数值取随机值,在训练模型时通过反向传播来自动更新该值;为激活函数,采用Leaky-RELU作为激活函数;分类特征首先对分类特征进行独热编码,然后将其通过全连接网络来获得其最终表示rc∈RD4×1; 其中c为用户的分类特征,Wc,bc分别为与分类特征相关的权重矩阵和偏置系数,二者的初始数值取随机值,在训练模型时通过反向传播来自动更新该值;为激活函数,采用Leaky-RELU作为激活函数;描述特征使用了预训练语言模型Roberta对单词进行编码,具体编码方式如下: 其中d为用户描述的表示,L表示一个用户的表示包括L个单词,Dd为描述的嵌入维度,将其设为768;然后将描述特征编码通过一个全连接网络来获得其最终表示rd; 其中,Wd,bd分别为与描述特征相关的权重矩阵和偏置系数,二者的初始数值取随机值,在训练模型时通过反向传播来自动更新该值;为激活函数,这里,采用Leaky-RELU作为激活函数;推文特征使用了预训练语言模型Roberta对单词进行编码,具体编码方式如下: 其中为用户第j条推文的第i个单词,为用户第j条推文的第i个单词的编码表示,M表示一个用户发表M条推文,每条推文包含Qj个单词;由于用户的推文通常为长文本序列,所以为了解决长文本序列存在的长时依赖和梯度消失问题,使用了LSTM对推文编码做进一步处理,为第j条推文的生成的隐藏层序列状态为: 每一步的隐藏层表示通过LSTM生成,得到第j条推文的单词表示序列: 对单词表示求平均获得每条推文的表示,最后对所有推文表示取平均值,得到用户推文表示rt: 特征属性融合使用Bi-LSTM编码异质的用户属性内容,实现异质内容深度特征的交互,最后得到节点嵌入X={x1;…;xn},xi∈RD表示用户vi的属性表示;将X作为社交网络图的属性信息,结合图结构信息一起输入到编码器中,从而从属性和结构两方面对社交网络进行全面表示;用户vi的节点属性表示如下; 其中,Cv是用户v的特征类型,Cv∈{n,c,d,t},|Cv|表示特征种类数;表示正向LSTM,表示反向LSTM;为拼接操作符;步骤2、利用少量标注数据训练关系图卷积网络以及分类器使用RGCN来处理多关系异构图并学习用户表示,用户vi表示更新过程如下所示: 其中,σ表示ReLU激活函数;r∈R={“following”,“follower”},分别表示用户之间的关注和被关注关系;表示用户vi的关系为r的邻居节点集合,Ci,r为归一化系数,它的取值为即用户vi的关系为r的邻居节点的个数;Wrl为关系r的线性转换函数,负责将对应关系边上的邻居节点的特征进行转换,W0l表示与消息传递相关的权重矩阵,在训练过程中通过反向传播自动更新该值;其中,l表示RGCN的层数;表示输入层的用户表示;用户vi原始语义信息表示如下:fil+1=σWlfil,fi0=xi11其中,σ表示ReLU激活函数;Wl表示与线性转换相关的权重矩阵,在训练过程中通过反向传播自动更新该值;其中l表示层数;fi0表示输入层的用户表示;学习和优化基于用户表示以及用户原始语义信息利用softmax来得到用户的预测结果: 其中,WO,WK分别为第一权重矩阵和第二权重矩阵,bO,bK分别为第一偏置系数和第二偏置系数;权重矩阵和偏置系数的初始数值取随机值,在训练模型时通过反向传播来自动更新该值;分别表示RGCN,线性转换第L层即输出层的节点表示,L设为2;通过最小化所有标记节点上的交叉熵损失Loss来对参数进行训练; 其中,Y表示标注的用户,yi表示用户的真实标签;步骤3、基于置信度以及网络预测的不确定性选择伪标签采用多阶段自训练算法来多次训练RGCN;多阶段自训练过程首先使用原始的少量标记数据集对RGCN进行训练,然后将RGCN预测的用户节点及其伪标签加入到虚拟节点中,利用虚拟节点来扩充标注数据集并重新训练关系图卷积网络,重复这个过程K次,直到标注数据集收敛;首先利用RGCN获得的用户表示生成伪标签,生成的伪标签如式17所示;pi=softmaxzi15 其中,pi表示用户vi通过关系图卷积网络的输出概率,表示用户是机器人或者人类的概率;τ∈0,1为置信度阈值;表示是否对用户进行选择;表示指示函数,如果方括号内的条件为真,则函数值为1;如果条件为假,则函数值为0;如果大于等于指定的阈值,则表示添加该用户到标签集中,且添加的用户标签为c类,c∈{0,1};针对置信度阈值,采用自适应遗传算法对置信度阈值进行评估来找到最优解;首先生成了一个包含多个置信度阈值的初始种群;对于每个置信度阈值,采用验证准确率作为适应度对其进行评估,并根据置信度阈值的适应度确定哪些置信度阈值被选中用于繁殖下一代;然后利用选中的置信度阈值进行交叉操作,来产生新的置信度阈值,并通过变异操作引入一些随机性到新的置信度阈值中;通过反复进行选择,交叉和变异操作,生成新的置信度阈值,形成新的种群,直到达到最大迭代次数,设最大迭代次数为10;置信度阈值取值范围在0.77~0.83;通过不确定性感知来选择更准确的标签子集,该过程如18所示; 其中表示是否对用户进行选择,若表示选择该用户及伪标签添加到标签集中,反之则不选择该用户;τp∈0,1为置信度阈值;κp∈0,1为不确定阈值,up表示预测p的不确定性,这里使用MC-dropout对不确定性进行计算;dropout率设为0.3时效果最好;步骤4、利用深度聚类检查获得的伪标签,并将步骤3和步骤4获得的标签一致的数据加入到标签集中,继续用扩展的标签集训练关系图卷积网络;重复这个过程,直到模型性能不再变化深度聚类通过最小化以下公式来联合学习质心矩阵和每个用户的聚类分配yi,yi是一个独热编码向量;d为xi经过RGCN后的特征维度,k为类别数,这里k取200; 利用k均值聚类算法将用户嵌入向量聚类到不同类别中,来产生伪标签;深度聚类在聚类和通过预测这些伪标签来更新RGCN的参数之间交替;其中,N表示用户数,yi∈{0,1}k是一个k维的二值向量即每个元素都是0或1,F表示RGCN,xi表示用户vi的初始融合特征;为了根据嵌入距离将聚类中的类别转换为分类中的类别,引入了对齐机制将每个聚类中的用户分类到嵌入空间中最接近的类;对于k-means后未标记数据中的每个聚类s,对齐机制计算为:cs=argminm||vs-μm||220其中,argminm表示使得聚类质心和真实类质心距离最小的m的值,即将聚类s中的用户归到第m类中;μm表示标记用户中m类的质心,vs表示未标记用户中聚类s的质心,cs表示最终的聚类结果。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于图神经网络的多阶段自训练社交机器人检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。