买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川观想科技股份有限公司
摘要:本发明公开了一种基于行业多模态特征数据的智能合规性检测方法,包括:S1、采集行业隐私政策,并构建行业语料库;行业语料库中的数据包括不同结构层次的隐私概念词;S2、对待检测多模态数据进行各模态下的特征信息提取及聚合,得到描述待检测多模态数据包含信息的文本数据;S3、根据构建的行业语料库,提取文本数据的综合语义词;S4、根据提取的综合语义词,对文本数据进行合规性检测,获得待检测多模态数据的合规性检测结果。本发明将数据合规性检测过程与人工智能相结合,提高了数据合规性检测的效率与准确度。
主权项:1.一种基于行业多模态特征数据的智能合规性检测方法,其特征在于,包括以下步骤:S1、采集行业隐私政策,并构建行业语料库;所述行业语料库中的数据包括不同结构层次的隐私概念词;S2、对待检测多模态数据进行各模态下的特征信息提取及聚合,得到描述待检测多模态数据包含信息的文本数据;S3、根据构建的行业语料库,提取文本数据的综合语义词;S4、根据提取的综合语义词,对文本数据进行合规性检测,获得待检测多模态数据的合规性检测结果;所述步骤S2具体为:S21、将待检测多模态数据中的各单模态信息编码为嵌入并映射到共享空间中,并通过模态间和模态内的监督对比损失进行特征信息增强;S22、将各模态增强后的特定特征进行跨模态聚合,并学习跨模态的交互特征;S23、通过基于不同模态特征分布差异的注意力机制,聚合不同模态的特定特征及交互特征,得到描述待检测多模态数据包含信息的文本数据;所述步骤S23中,描述待检测多模态数据包含信息的文本数据表示为: 式中,和分别表示文本模态和图像模态的特定特征,表示跨模态交互特征,表示多模态一致性权重,表示拼接操作,表示第个模态样本对应的文本数据,L表示模态样本总数,表示模态样本索引;所述步骤S3具体为:S31、将行业语料库中的隐私概念词引入分词器LTP中,对文本数据进行分词,并输入所属行业的预训练语言模型中进行特征提取,获得对应的词嵌入;S32、针对文本数据中的每一个词,在行业语料库中查询对应的概念嵌入,并将其与对应的词嵌入按位相加,获得最终的词嵌入;S33、通过BiLSTM模型捕获文本数据中每个词的上下文语义,同时查询行业语料库生成掩码注意力向量,计算与行业语料库中隐私概念词的隐私概念相匹配的注意力权重,进而得到该词的综合语义词;所述步骤S33具体为:S33-1、通过BiLSTM模型捕获文本数据中每个词的上下文语义,得到各词的特征表示;S33-2、查询行业语料库,匹配文本中各词的隐私概念,生成掩码注意力向量,并基于掩码注意力向量计算各词的注意力权重; 式中,表示相对于的注意力权重,和分别表示BiLSTM模型输出的第个和第个词的嵌入表示,表示第个词嵌入经过非线性变换后的嵌入表示,表示第个词所在隐私概念中第k个词经过非线性变化后的嵌入表示,为第个词所在隐私概念中词的个数,下标k表示BiLSTM模型输出词所在隐私概念中词的嵌入表示的索引,exp表示指数函数;S33-3、基于各词的注意力权重,计算对应的嵌入表示,进而融合形成语义特征; 式中,表示嵌入表示,表示模型可学习参数,tanh表示双曲正切函数,表示连接操作;表示中间参数,且,表示相对于的注意力权重,下标表示隐私概念中第个词,为第个词所在隐私概念中词的个数;S33-4、将语义特征输入全局指针网络中,计算其语义得分,进而得到综合语义词; 式中,表示语义特征对应的语义得分,表示第个词的旋转位置编码,表示第个词的旋转位置编码,表示第种类综合语义词的起始位置表示,表示第种类综合语义词的终止位置表示,表示文本数据中第个词到第个词的相对旋转位置编码,上标T表示矩阵转置运算;所述步骤S4具体为:S41、基于提取的综合语义词,生成对应隐私文本规范模版;S42、使用BERT模型将文本数据和隐私文本规范模版分别编码为对应的嵌入矩阵;S43、使用Transformer编码器分别提取两个嵌入矩阵的特征,并基于自注意力机制进行互注意力交互计算,获得对应的语义表示;S44、对文本数据和隐私文本规范模版对应的语义表示进行多层次拼接融合,进而计算其相似度;S45、判断相似度是否大于设定阈值;若是,则文本数据通过合规性检测;若否,则文本数据未通过合规性检测。
全文数据:
权利要求:
百度查询: 四川观想科技股份有限公司 一种基于行业多模态特征数据的智能合规性检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。