买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆理工大学
摘要:本发明具体涉及基于图神经网络的双过滤证据感知虚假新闻检测方法,通过虚假新闻检测模型输出新闻的真实性预测概率;训练模型时包括:对证据进行筛选:过滤与新闻相关性低的证据,保留与新闻相关性高的证据;构建新闻图结构和证据图结构;对新闻图结构进行图结构语义编码得到新闻嵌入表示;对证据图结构进行图语言结构细化;通过注意力分数将证据细粒度节点嵌入集成为文档嵌入,得到证据嵌入表示;将新闻嵌入表示和证据嵌入表示与新闻作者和证据发布者拼接得到文档级嵌入表示,通过分类器生成真实性预测概率;计算任务损失来优化模型参数。本发明通过建模图来解决文本中信息的距离问题,同时通过双过滤结构尽可能的保留有效且必要的证据。
主权项:1.基于图神经网络的双过滤证据感知虚假新闻检测方法,其特征在于,包括:S1:获取新闻、新闻作者以及与新闻相关的证据和证据发布者作为待检测信息;S2:将待检测信息输入经过训练的虚假新闻检测模型中,输出对应新闻的真实性预测概率;通过如下步骤训练虚假新闻检测模型:S201:获取作为训练数据的新闻、新闻作者以及与新闻相关的证据和证据发布者;S202:对证据进行筛选:过滤与新闻相关性低的证据,保留与新闻相关性高的证据;步骤S202中,首先使用预训练语言模型BERT分别对新闻和每个证据的文本信息进行编码,然后使用[CLS]标记的最终表示作为文本信息的语义特征,得到对应的新闻嵌入矩阵和证据嵌入矩阵其中Nc和Ne分别表示新闻和证据的文本信息中的单词数,d是单词嵌入的维数;最后通过基于门控的文档选择器过滤掉与新闻的相关性低于相似度阈值的证据,保留与新闻的相关性高于或等于相似度阈值的证据集合;公式描述为:ε′={e:e∈ε,cossimHe,Hc≥T};式中:ε′表示保留的与新闻的相关性高于或等于相似度阈值的证据集合,证据集合中的证据数量为ne=|ε′|;cossim·表示余弦相似度计算;T表示相似度阈值;e表示候选的证据;S203:基于新闻和保留的证据构建对应的新闻图结构和证据图结构;S204:对新闻图结构进行图结构语义编码,得到新闻嵌入表示;S205:对证据图结构进行图语言结构细化:丢弃证据图结构中冗余的证据节点,根据非冗余的证据节点生成对应的证据细粒度节点嵌入;步骤S205中,通过基于高斯核的节点筛选器计算证据图结构中每个证据节点的冗余分数和非冗余分数,进而筛选出非冗余分数最高的k个证据节点,并将筛选出的k个证据节点的节点嵌入表示拼接在一起得到证据细粒度节点嵌入;通过如下步骤生成证据细粒度节点嵌入:S2051:计算证据图结构中证据节点的自身冗余分数;公式描述为:sse=HeWse;式中:sse表示证据节点的自身冗余分数列表,每一维代表每一个节点的分数;为可训练的权重;He表示证据嵌入矩阵;S2052:计算证据图结构中证据节点与新闻之间的相关冗余分数;公式描述为: ssr=KWsr;式中:ssr表示证据节点的相关冗余分数列表;cossimHei,Hcj表示证据中的第i个单词与新闻中第j个单词的余弦相似度;是可训练的权重;Cc是新闻的新闻节点集;Kit表示一个高斯核所得到的相关性分数;Ki表示证据中第i个节点的相似度嵌入;K表示整个证据的相似度嵌入,K表示高斯核的个数;μt和分别为不同高斯核中的均值和方差;是拼接操作;Norm·是一个标准化函数;Hei、Hcj分别表示证据图结构和新闻图结构中的一个单词;S2053:将证据节点的自身冗余分数和相关冗余分数进行线性相加,得到冗余得分;公式描述为:sr=1-βsse+βssr;式中:sr表示证据节点的冗余得分列表;β用来控制自身冗余分数和相关冗余分数的融合比例;S2054:通过门控图神经网络根据证据节点的冗余得分计算每个证据节点结构感知的冗余分数;公式描述为: 式中:sf表示证据节点结构感知的冗余分数列表;sr表示证据节点的冗余得分列表;表示证据图结构;GGNN表示门控图神经网络处理;S2055:通过f·筛选出非冗余分数最高的k个证据节点,并且将筛选出的证据节点的嵌入表示拼接在一起作为语义结构细化后的证据细粒度节点嵌入;公式描述为:sn=i-σsf;[He1;He2;...;Hek]=ftop_ksn;式中:He=[He1;He2;...;Hek]表示证据细粒度节点嵌入;sn表示证据节点的非冗余分数列表;sf表示证据节点的冗余分数列表,sf的每一维都表示一个节点的冗余分数,i是一个一维向量,其中的每一维都为1;[;]为向量的拼接;S206:通过注意力分数将证据细粒度节点嵌入集成为文档嵌入,得到证据嵌入表示;S207:分别将新闻嵌入表示和证据嵌入表示与新闻作者和证据发布者拼接,得到文档级嵌入表示,进而通过分类器生成新闻的真实性预测概率;S208:根据新闻的真实性预测概率和真实性标签计算任务损失来优化模型参数;S209:重复步骤S201至S208,直至虚假新闻检测模型收敛;S3:将对应新闻的真实性预测概率作为其虚假检测结果。
全文数据:
权利要求:
百度查询: 重庆理工大学 基于图神经网络的双过滤证据感知虚假新闻检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。