首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于常识协同感知的多模态讽刺检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广西师范大学

摘要:本发明公开了一种基于常识协同感知的多模态讽刺检测方法,包括如下步骤:1)预处理多模态讽刺检测数据集;2)跨模态知识感知图卷积网络;3)讽刺性特征聚焦模块;4)为了利用不同模态的信息,设计了全局模态协同融合即GMSF模块来建模各个模态中的全局关系;5)集成训练;6)结果输出。这种方法更加关注于关键讽刺特征、并结合常识性信息,使得对于多模态讽刺数据的识别更加准确高效。

主权项:1.基于常识协同感知的多模态讽刺检测方法,其特征在于,包括如下步骤:1预处理多模态讽刺检测数据集:1-1多模态讽刺检测数据集MMSD和MMSD2.0包含从Twitter所收集的多个原始讽刺图像-文本对,并分别将MMSD和MMSD2.0这两个数据集随机按8:1:1的比例分为训练集、验证集和测试集;1-2采用通过预训练的BERT模型对两个训练集中的文本进行特征提取,以及使用预训练的VisionTransformer模型对两个训练集中的图像进行特征提取:1-2-1提取文本特征:首先给定一个单词序列,表示为其中n是s的长度,然后,使用预训练的RoBERTa模型将每个单词wi映射到一个dT维的嵌入向量:X=[x1,x2,…,xn,xCLS]=RoBERTas,1其中表示RoBERTa模型所输出的文本嵌入向量,xCLS表示文本全局令牌;1-2-2提取视觉特征:给定一个图像Image,将该图像分割成r个不重叠的补丁,并产生r个视觉补丁嵌入,如下所示:H=[hCLS,h1,h2,…,hr]=VisionTransformerImage,2其中hCLS表示该图像的视觉全局[CLS]令牌,表示VisionTransformer模型所输出的视觉补丁嵌入;2跨模态知识感知图卷积网络:2-1文本模态图构建:文本模态图通过依赖Graph结构来捕获文本中的语义关系,文本模态图的Graph节点为公式1中的文本嵌入向量,文本模态图的Graph边根据依赖树确定;2-2图像模态图构建:图像模态图通过依赖Graph结构来捕获图像中的语义关系,图像模态图的Graph节点为公式2中的视觉补丁嵌入,图像模态图的Graph边根据视觉补丁的交集比确定;2-3跨模态知识感知图构建:在步骤2-1文本模态图和步骤2-2图像模态图的基础上,构建一个跨模态知识感知图,该跨模态知识感知图的Graph节点包括知识文本标记和图像的视觉补丁嵌入,其中知识文本标记是通过引入ConceptNet中的常识性知识与文本嵌入向量进行融合所得到的;跨模态知识感知图的Graph边则根据Siamese网络所捕捉的文本与图像之间的语义关系确定;2-4图卷积网络:采用图卷积网络即GCN,从跨模态知识感知图的Graph结构中提取情感关系来理解多模态讽刺信息的不一致性;具体为,GCN通过使用邻接矩阵的基于邻域的迭代操作来更新跨模态知识感知图的Graph节点特征,之后迭代检测文本和图像各自两种模态内的不一致性以及文本和图像两种模态之间的不一致性,详细迭代流程如下: 其中表示归一化对称邻接矩阵,Dx是矩阵Ax的度矩阵,表示在执行第n次GCN操作之后相应图中的对应节点的表示,其中x∈{t,v,c},u∈[1,U],U表示迭代的总次数,和都为第n层GCN的可训练参数,之后,为了获得用于检测的面向图的跨模态表示,采用基于检索的注意力机制,检索图间图内结构中的关键表示,即输入交叉模态图的初始节点表示i.e.,H={v1,v2,…,vn+3k}和GCN层的最终输出到注意力机制: 其中αi表示注意力分数,fl表示来自用于讽刺检测的跨模态知识感知图卷积网络的最终讽刺表示;3讽刺性特征聚焦模块:采用卷积操作优化的Transformer编码器与卷积注意力模块集成,以弥补重要特征缺乏关注的问题,包括:3-1构建跨模态相关矩阵:具体为:采用Transformer编码器来捕获不同模态之间的交互,首先使用将不同模态的表示进行连接,随后利用不同的线性函数来获得相应的查询、键和值,然后计算得到最后的表示根据更新的构建相关矩阵3-2集成卷积注意力模块:具体为: ye=softmaxWeEatt+be,8将所构建的跨模态相关矩阵E作为输入,Ms和Mc分别是2-D空间注意图和1-D通道注意图,表示矩阵相乘,MLP表示具有隐藏单元的共享网络,σ为Sigmoid函数,K7×7表示卷积核,经过通道注意力和空间注意力两个子模块的计算,得到最终的讽刺表示ye,并作为相应的概率分布输出;4为了利用不同模态的信息,设计了全局模态协同融合即GMSF模块来建模各个模态中的全局关系,包括:4-1后期融合:针对步骤2-4的跨模态知识感知图卷积网络和步骤3-2的集成卷积注意力模块所得到的预测输出进行后期融合操作,具体为: yf为后期融合的结果,yl和ye分别表示跨模态知识感知图卷积网络和集成卷积注意力模块所得到的预测输出;4-2模态门控制机制:为了全面整合来自每种模态的全局信息和控制每个模态传输的预测信息的量,引入了两个模态门textualgategt和visualgategv,具体为: 其中Wft和Wfv为可训练的权重参数,bft和bfv为偏置参数,yt和yv分别表示为只使用文本模态的预测输出和只使用图像模态的预测输出,为用于多模态讽刺检测的最终融合表示;5集成训练:采用最小化二元交叉熵损失基于验证集来优化集成方法的参数,该损失衡量预测标签分布与真实标签分布之间的差异,计算过程如下: 表示损失函数,表示对于第i个样本所预测的结果,yi表示第i个样本的真实标签,变量N代表训练数据的大小,R对应于标准的L2正则化,λ表示分配给R的权重;6结果输出:在使用最小化二元交叉熵损失函数进行端到端的训练之后,得到预测结果。

全文数据:

权利要求:

百度查询: 广西师范大学 基于常识协同感知的多模态讽刺检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。