买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:济南大学
摘要:本发明提供了一种基于长文本特征提取优化的媒体假新闻检测方法及系统,对获取的媒体数据进行预处理;对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。本发明能够减少数据噪声问题,解决自编码模型存在的预训练‑微调阶段的学习偏差,降低特征维度,解决长文本信息丢失问题,提高特征学习能力。
主权项:1.一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:包括以下步骤:对获取的媒体数据进行预处理;对预处理后的媒体数据根据数据对齐的统一长度分为长文本类别与短文本类别,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果;采用不同方式提取相应类别的新闻文本特征的具体过程包括:对多个长文本实例的输入分别采用针对微调阶段的二次词遮蔽学习方法进行处理,每条实例得到两条不同遮蔽的标记序列,对两条标记序列采用保留边缘特征的数据对齐方法得到重构后的长文本特征向量表示;对于短文本数据采用填充方式进行数据对齐,为标记序列不足统一长度的部分进行补零,并使用BERT预训练模型作为嵌入层,学习短文本特征向量表示;将长文本与短文本特征向量表示输入到基于BERT的注意力网络层学习单词间依赖关系,得到深层特征表示;采用保留边缘特征的数据对齐方法的具体过程包括:对两条标记序列分别添加起始位;采用迁移学习的方式,使用BERT预训练模型作为嵌入层,将步骤起始位后的标记序列转化为向量表示,得到两条长文本特征向量表示;将两条长文本特征向量首尾连接,拉伸为一条一维向量;以统一长度为标准长度,将一维向量从前往后进行裁剪,剔除不足统一长度的向量,最终得到两条包含长文本边缘特征的重构向量;将长文本与短文本特征向量表示输入到基于BERT的注意力网络层学习单词间依赖关系的具体过程包括:将多维向量输入到基于BERT的注意力网络层;将输入的每条数据向量复制成Query、Key和Value三个向量矩阵;以目标词为Query,上下文中的其他词为Key,计算它们之间的相似度;对相似度结果利用Softmax操作归一化为概率分布,并与矩阵V相乘得到注意力权重表示。
全文数据:
权利要求:
百度查询: 济南大学 基于长文本特征提取优化的媒体假新闻检测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。