一种基于图神经网络的多阶段自训练社交机器人检测方法

导航：龙图腾网> 最新专利技术> 一种基于图神经网络的多阶段自训练社交机器人检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京工业大学

摘要：本发明提供了一种基于图神经网络的多阶段自训练社交机器人检测方法。本发明首先利用全连接神经网络以及LSTM分别对社交媒体上用户的基本信息以及其用户发表的推文信息进行处理，并利用双向长短期记忆网络融合不同类型的用户信息作为用户的属性特征。为了对用户属性以及用户之间的拓扑关系进行处理，本发明利用少量标记数据对改进的RGCN进行训练，并利用训练好的RGCN获得未标记数据的预测，结合不确定性感知和深度聚类机制为未标记数据赋予伪标签。最后利用扩充的标记数据集继续对检测模型进行训练，重复该过程，直到模型性能不再变化。在Twibot‑20数据集上的准确率达到0.9259，证明了在缺乏足够标记数据的情况下有效。

主权项：1.一种基于图神经网络的多阶段自训练社交机器人检测方法，其特征在于包括以下步骤：基于步骤1、数据预处理，对用户个人资料及推文进行编码首先获取Twibot20数据集，从该数据集中获取与账户相关的数字特征，分类特征，描述特征以及推文特征；数字特征数字特征方面，首先对这些获得的数字特征进行z-score归一化处理，并将其通过一个全连接网络来获得其最终表示rn∈RD4×1，D为用户的嵌入维度，这里D的值为128，R为实数集；其中n为用户的数字特征，Wn，bn分别为与数字特征相关的权重矩阵和偏置系数，二者的初始数值取随机值，在训练模型时通过反向传播来自动更新该值；为激活函数，采用Leaky-RELU作为激活函数；分类特征首先对分类特征进行独热编码，然后将其通过全连接网络来获得其最终表示rc∈RD4×1；其中c为用户的分类特征，Wc，bc分别为与分类特征相关的权重矩阵和偏置系数，二者的初始数值取随机值，在训练模型时通过反向传播来自动更新该值；为激活函数，采用Leaky-RELU作为激活函数；描述特征使用了预训练语言模型Roberta对单词进行编码，具体编码方式如下：其中d为用户描述的表示，L表示一个用户的表示包括L个单词，Dd为描述的嵌入维度，将其设为768；然后将描述特征编码通过一个全连接网络来获得其最终表示rd；其中，Wd，bd分别为与描述特征相关的权重矩阵和偏置系数，二者的初始数值取随机值，在训练模型时通过反向传播来自动更新该值；为激活函数，这里，采用Leaky-RELU作为激活函数；推文特征使用了预训练语言模型Roberta对单词进行编码，具体编码方式如下：其中为用户第j条推文的第i个单词，为用户第j条推文的第i个单词的编码表示，M表示一个用户发表M条推文，每条推文包含Qj个单词；由于用户的推文通常为长文本序列，所以为了解决长文本序列存在的长时依赖和梯度消失问题，使用了LSTM对推文编码做进一步处理，为第j条推文的生成的隐藏层序列状态为：每一步的隐藏层表示通过LSTM生成，得到第j条推文的单词表示序列：对单词表示求平均获得每条推文的表示，最后对所有推文表示取平均值，得到用户推文表示rt：特征属性融合使用Bi-LSTM编码异质的用户属性内容，实现异质内容深度特征的交互，最后得到节点嵌入X＝{x1；…；xn}，xi∈RD表示用户vi的属性表示；将X作为社交网络图的属性信息，结合图结构信息一起输入到编码器中，从而从属性和结构两方面对社交网络进行全面表示；用户vi的节点属性表示如下；其中，Cv是用户v的特征类型，Cv∈{n,c,d,t}，|Cv|表示特征种类数；表示正向LSTM，表示反向LSTM；为拼接操作符；步骤2、利用少量标注数据训练关系图卷积网络以及分类器使用RGCN来处理多关系异构图并学习用户表示，用户vi表示更新过程如下所示：其中，σ表示ReLU激活函数；r∈R＝{“following”,“follower”}，分别表示用户之间的关注和被关注关系；表示用户vi的关系为r的邻居节点集合，Ci,r为归一化系数，它的取值为即用户vi的关系为r的邻居节点的个数；Wrl为关系r的线性转换函数，负责将对应关系边上的邻居节点的特征进行转换，W0l表示与消息传递相关的权重矩阵，在训练过程中通过反向传播自动更新该值；其中，l表示RGCN的层数；表示输入层的用户表示；用户vi原始语义信息表示如下：fil+1＝σWlfil，fi0＝xi11其中，σ表示ReLU激活函数；Wl表示与线性转换相关的权重矩阵，在训练过程中通过反向传播自动更新该值；其中l表示层数；fi0表示输入层的用户表示；学习和优化基于用户表示以及用户原始语义信息利用softmax来得到用户的预测结果：其中，WO,WK分别为第一权重矩阵和第二权重矩阵，bO,bK分别为第一偏置系数和第二偏置系数；权重矩阵和偏置系数的初始数值取随机值，在训练模型时通过反向传播来自动更新该值；分别表示RGCN，线性转换第L层即输出层的节点表示，L设为2；通过最小化所有标记节点上的交叉熵损失Loss来对参数进行训练；其中，Y表示标注的用户，yi表示用户的真实标签；步骤3、基于置信度以及网络预测的不确定性选择伪标签采用多阶段自训练算法来多次训练RGCN；多阶段自训练过程首先使用原始的少量标记数据集对RGCN进行训练，然后将RGCN预测的用户节点及其伪标签加入到虚拟节点中，利用虚拟节点来扩充标注数据集并重新训练关系图卷积网络，重复这个过程K次，直到标注数据集收敛；首先利用RGCN获得的用户表示生成伪标签，生成的伪标签如式17所示；pi＝softmaxzi15 其中，pi表示用户vi通过关系图卷积网络的输出概率，表示用户是机器人或者人类的概率；τ∈0,1为置信度阈值；表示是否对用户进行选择；表示指示函数，如果方括号内的条件为真，则函数值为1；如果条件为假，则函数值为0；如果大于等于指定的阈值，则表示添加该用户到标签集中，且添加的用户标签为c类，c∈{0,1}；针对置信度阈值，采用自适应遗传算法对置信度阈值进行评估来找到最优解；首先生成了一个包含多个置信度阈值的初始种群；对于每个置信度阈值，采用验证准确率作为适应度对其进行评估，并根据置信度阈值的适应度确定哪些置信度阈值被选中用于繁殖下一代；然后利用选中的置信度阈值进行交叉操作，来产生新的置信度阈值，并通过变异操作引入一些随机性到新的置信度阈值中；通过反复进行选择，交叉和变异操作，生成新的置信度阈值，形成新的种群，直到达到最大迭代次数，设最大迭代次数为10；置信度阈值取值范围在0.77～0.83；通过不确定性感知来选择更准确的标签子集，该过程如18所示；其中表示是否对用户进行选择，若表示选择该用户及伪标签添加到标签集中，反之则不选择该用户；τp∈0,1为置信度阈值；κp∈0,1为不确定阈值，up表示预测p的不确定性，这里使用MC-dropout对不确定性进行计算；dropout率设为0.3时效果最好；步骤4、利用深度聚类检查获得的伪标签，并将步骤3和步骤4获得的标签一致的数据加入到标签集中，继续用扩展的标签集训练关系图卷积网络；重复这个过程，直到模型性能不再变化深度聚类通过最小化以下公式来联合学习质心矩阵和每个用户的聚类分配yi，yi是一个独热编码向量；d为xi经过RGCN后的特征维度，k为类别数，这里k取200；利用k均值聚类算法将用户嵌入向量聚类到不同类别中，来产生伪标签；深度聚类在聚类和通过预测这些伪标签来更新RGCN的参数之间交替；其中，N表示用户数，yi∈{0,1}k是一个k维的二值向量即每个元素都是0或1，F表示RGCN，xi表示用户vi的初始融合特征；为了根据嵌入距离将聚类中的类别转换为分类中的类别，引入了对齐机制将每个聚类中的用户分类到嵌入空间中最接近的类；对于k-means后未标记数据中的每个聚类s，对齐机制计算为：cs＝argminm||vs-μm||220其中，argminm表示使得聚类质心和真实类质心距离最小的m的值，即将聚类s中的用户归到第m类中；μm表示标记用户中m类的质心，vs表示未标记用户中聚类s的质心，cs表示最终的聚类结果。

全文数据：

权利要求：

百度查询：北京工业大学一种基于图神经网络的多阶段自训练社交机器人检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种塑料粒子均匀进料加工装置

下一篇：一种PCDN节点线路的流量调度系统及方法

相关技术

一种塑料粒子均匀进料加工装置

一种PCDN节点线路的流量调度系统及方法

管体、内窥镜及装配方法、约束结构的成型方法、治具

小功率盘柜报警灭火系统

一种高柔性高热稳定性的正温度系数复合材料的制备方法

一种网球训练测试装置和测试方法

一种空气弹簧气密性检测装置

一种急诊抢救用移动输液推车

一株动物双歧杆菌乳亚种Bbm-19及其调节神经递质的应用

热源塔热泵耦合燃气吸收式热泵的供热装置

用于密钥管理的方法、装置、设备和存储介质

一种非接触式三分量高精度管道检测仪

训练相关技术

刺杀训练用靶子_北京普盛科技发展有限公司_202323629802.2

肢体功能训练器_中国人民解放军陆军军医大学第二附属医院_202323310931.5

上肢康复导引训练系统_中国科学院苏州生物医学工程技术研究所_202410846370.0

新型吞咽功能训练装置_温州市中医院_202323639310.1

一种训练单杠_海兴县领动文体器材有限公司_202420259248.9

一种血管介入手术训练模型及其训练方法_华中科技大学同济医学院附属同济医院_202410775194.6

一种多功能儿童感觉统合训练装置及其训练方法_合肥师范学院_202410972606.5

一种呼气训练器_叶静_202323667964.5

一种训练射击精度靶_青岛北驰隆方科技有限公司_202420231004.X

新型深呼吸训练装置_张家港市中医医院_202323412841.7

社交相关技术

机器社交媒体平台上的机器对机器通信的超链接消息_西门子股份公司_202180053737.8

一种在移动边缘计算中基于社交关系的高效切换认证方法_合肥大学_202410765140.1

一种公平感知社交推荐方法及相关装置_南京林业大学_202411003914.3

一种基于大数据分析的社交平台用户兴趣推荐方法_深圳市乐唯科技开发有限公司_202411066254.3

一种面向社交平台的标签化信息推荐方法_吉林大学_202410882192.7

基于多维度信息的社交软件互动配对方法、系统及存储介质_北京愈心科技有限公司_202410975046.9

基于位置信息的社交软件互动配对方法、系统及存储介质_北京愈心科技有限公司_202410975045.4

一种融合高阶社交关系的轻量级图卷积协同过滤推荐方法_辽宁工程技术大学_202410893430.4

一种基于图神经网络的多阶段自训练社交机器人检测方法_北京工业大学_202410723273.2

一种基于Transformer的社交消息爆发预测方法_郑州大学_202410581004.7

阶段相关技术

基于两阶段调度的城际动态拼车调度优化方法及装置_华侨大学_202410994378.1

一种SOFC在最优时间的双阶段负载上升切换方法_武汉华夏智能技术有限公司_202410788482.5

一种薄壁叶片多阶段加工误差的预测方法_西北工业大学_202411255698.1

一种基于核磁共振划分多孔介质水分蒸发阶段的方法_河海大学_202311782759.5

人工智能驱动的两阶段随机规划问题求解方法和系统_中科南京人工智能创新研究院_202410996718.4

车辆运输船舶的甲板在总组阶段的加强装置和方法_上海外高桥造船有限公司_202411014868.7

一种基于两阶段聚类的地铁站点特性挖掘方法_南京邮电大学_202410760200.0

一种基于声信号的配水管网两阶段泄漏监测方法及装置_浙江大学_202410716635.5

一种基于三阶段协同优化的配电网弹性提升方法及系统_广东电网有限责任公司_202410806406.2

大口径光学元件研磨加工阶段面形与亚表面缺陷的线扫描式快速干涉检测装置_中国科学院长春光学精密机械与物理研究所_202411237522.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于图神经网络的多阶段自训练社交机器人检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务