买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请涉及一种讽刺检测方法、装置、电子设备及存储介质,其中,该讽刺检测方法包括:获取待检测的多模态对象,多模态对象包括图像和与图像关联的文本;通过推理知识图谱确定文本的常识知识;通过预训练的多模态模型分别获取图像的知识表征、图像的图像表征、文本表征以及常识知识表征;根据图像的知识表征、图像的图像表征、文本表征以及常识知识表征,确定待检测的多模态对象中是否存在讽刺意图。将多模态对象直接体现出的信息与隐含的信息相结合,不仅能够了解到多模态对象的表面数据,还能够更深层次的了解到多模态对象的引申含义,从而更加精确地判断多模态对象中是否存在讽刺意图,解决了现有相关技术中存在的讽刺检测精确度不佳的问题。
主权项:1.一种讽刺检测方法,其特征在于,包括:获取待检测的多模态对象,所述多模态对象包括图像和与图像关联的文本;通过推理知识图谱确定所述文本的常识知识;通过预训练的多模态模型分别获取所述图像的知识表征、所述图像的图像表征、所述文本表征以及所述常识知识表征;通过预训练的多模态模型分别获取所述图像的知识表征、所述图像的图像表征、所述文本表征以及所述常识知识表征,包括:通过图像描述生成模型生成对于所述图像的文本描述,以及通过光学字符识别模型获取所述图像中的文本内容;对所述图像的文本描述和文本内容进行拼接组合;通过预训练的多模态模型分别对所述拼接组合后的内容、所述图像、所述文本以及所述常识知识进行特征提取,得到所述图像的知识表征、所述图像的图像表征、所述文本表征以及所述常识知识表征;通过预训练后的多模态模型对多模态对象中的图像、图像的文本描述、图像的文本内容、多模态对象中的文本以及常识知识进行特征提取,具体过程的表达式如下: 其中,表示图像的特征,为整个图像的向量表示,为图像按照固定大小切分产生块的数量,为图像的第1个块的向量表示,为图像的第个块的向量表示,中的为图像编码器,表示图像;表示文本特征,为整个文本的向量表示,是文本的长度,中为文本编码器,为文本,为图像的文本描述,为图像的光学字符识别的文本内容,即OCR文本,表示图像知识的特征;根据所述图像的知识表征、所述图像的图像表征、所述文本表征以及所述常识知识表征,确定所述待检测的多模态对象中是否存在讽刺意图;根据图像的知识表征、图像的图像表征、文本表征以及常识知识表征,确定待检测的多模态对象中是否存在讽刺意图之前,包括:将常识知识表征与文本表征的注意力交互进行组合;对常识知识表征与文本表征的注意力交互进行组合的表达式如下: 其中,表示文本表征的[CLS]部分,表示将产生的常识知识列表分别提取表征后将各自的[CLS]部分拼接产生的常识知识表征,、表示可学习的参数矩阵;根据所述图像的知识表征、所述图像的图像表征、所述文本表征以及所述常识知识表征,确定所述待检测的多模态对象中是否存在讽刺意图,包括:对所述图像的知识表征、所述图像的图像表征、所述文本表征以及所述常识知识表征进行多角度融合处理,得到所述待检测的多模态对象的讽刺意图概率;根据所述待检测的多模态对象的讽刺意图概率确定所述待检测的多模态对象中是否存在讽刺意图;所述图像的图像表征、所述文本表征以及所述常识知识表征进行多角度融合处理,得到所述待检测的多模态对象的讽刺意图概率,包括:对所述图像的知识表征以及所述图像的图像表征进行拼接处理,输入多层自注意力网络进行融合,得到第一模态内角度对应的讽刺意图概率;对所述文本表征以及所述常识知识表征进行拼接处理,输入多层自注意力网络进行融合,得到第二模态内角度对应的讽刺意图概率;对所述图像的图像表征与所述文本表征进行拼接处理,输入多层自注意力网络进行融合,得到模态间角度对应的讽刺意图概率;对所述图像的文本描述进行特征提取,得到图像的文本描述表征;将所述图像的文本描述表征、所述文本表征与所述常识知识表征拼接处理后的结果进行二次拼接,输入多层自注意力网络进行融合,得到知识角度对应的讽刺意图概率;模态内角度包括图像的知识表征以及图像的图像表征融合的第一模态内角度和文本表征以及常识知识表征融合的第二模态内角度;对图像的知识表征以及图像的图像表征进行拼接处理,输入多层自注意力网络进行融合;融合后的[CLS]部分通过多模态模型中的一个全连接层以及一个softmax层处理后,输出第一模态内角度表达讽刺意图的概率,具体表达式如下: 其中,表示第一模态内角度的讽刺概率,即图像模态内角度的讽刺概率;、表示可学习的参数,表示融合后图像特征的[CLS]部分,将文本模态内角度的讽刺概率记为;对于模态间角度:将图像的图像表征与文本表征进行拼接处理,输入多层自注意力网络进行融合;将图像的图像表征与文本表征进行直接拼接后,通过多层自注意力网络进行融合,融合后的图像的[CLS]部分与文本[CLS]部分将进行二次融合,并通过多模态模型中的一个全连接层以及一个softmax层,输出表达讽刺意图的概率,具体表达式如下: 其中,表示模态间角度的讽刺概率,表示将组合的权重系数,、分别表示融合后特征的图像[CLS]部分和文本[CLS]部分,、、、表示可学习的参数;对于知识角度:对图像的文本描述进行特征提取,得到图像的文本描述表征;将图像的文本描述表征、文本表征与常识知识表征拼接处理后的结果进行二次拼接,输入多层自注意力网络进行融合,融合后的结果通过多模态模型中的一个全连接层以及一个softmax层,输出表达讽刺意图的概率,记为;根据待检测的多模态对象的讽刺意图概率确定待检测的多模态对象中是否存在讽刺意图,包括:对第一模态内角度对应的讽刺意图概率、第二模态内角度对应的讽刺意图概率、模态间角度对应的讽刺意图概率以及知识角度对应的讽刺意图概率进行动态加权融合,确定待检测的多模态对象中是否存在讽刺意图;采用集成加权门来衡量不同角度的贡献比例(重要程度),对各角度上的讽刺意图概率进行聚合,表达式如下: 其中,表示最终的讽刺概率,、为可学习的参数矩阵,表示多角度概率拼接矩阵的转置,,表示多角度概率的堆叠,;多模态模型的损失函数采用二元交叉熵损失函数,表达式如下: 其中,表示多模态模型的损失函数值,表示是否存在讽刺意图的标签,表示样本图像的概率融合结果,表示样本图像的数量。
全文数据:
权利要求:
百度查询: 中国科学技术大学 一种讽刺检测方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。