买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:腾讯科技(深圳)有限公司
摘要:本申请实施例公开一种标题党识别方法,针对待识别媒体数据,可以利用媒体分类模型确定待识别媒体数据的媒体特征,以及根据待识别媒体数据的文本信息确定文本特征,其中,文本信息至少包括待识别媒体数据的标题信息。之后,对媒体特征和文本特征进行融合得到多模态特征,由于多模态特征是结合待识别媒体数据多个维度的特征得到的,多模态特征所体现的信息更加丰富,能够从多个维度表征待识别媒体数据的特点,故根据多模态特征计算待识别媒体数据属于标题党的概率,以确定待识别媒体数据是否属于标题党会更加精确,提高了标题党识别能力。
主权项:1.一种标题党识别方法,其特征在于,所述方法包括:获取待识别媒体数据,所述待识别媒体数据为视频;利用媒体分类模型确定所述待识别媒体数据的媒体特征,以及根据所述待识别媒体数据的文本信息确定所述待识别媒体数据的文本特征;所述媒体特征为图像特征和声学特征,所述文本信息至少包括所述待识别媒体数据的标题信息、描述信息和字幕信息;所述媒体特征和所述字幕信息是根据关键帧确定的,所述关键帧是通过序列标注模型从所述待识别媒体数据中提取的;所述序列标注模型的训练方式为对媒体数据进行人工标注,对媒体数据的每一帧标注0或1,构建训练数据集,根据所述训练数据集训练所述序列标注模型;通过双向注意力机制对所述媒体特征和所述文本特征进行融合得到多模态特征;所述通过双向注意力机制对所述媒体特征和所述文本特征进行融合得到多模态特征,包括:通过所述文本特征对所述媒体特征做Attention,通过所述媒体特征对所述文本特征做Attention,并将两个Attention表示进行拼接作为所述多模态特征;若所述待识别媒体数据已经被播放,所述文本信息还包括评论信息,所述方法还包括:获取所述待识别媒体数据的完整播放率特征,所述完整播放率特征表征所述待识别媒体数据的播放时长与所述待识别媒体数据的总时长的比例;所述多模态特征中还包括完整播放率特征;根据所述多模态特征,利用标题党分类模型计算所述待识别媒体数据属于标题党媒体数据的概率;根据所述概率确定所述待识别媒体数据是否属于标题党媒体数据;若所述待识别媒体数据属于标题党媒体数据,在检索结果中将标题党媒体数据和非标题党媒体数据的标题信息进行差异化展示。
全文数据:
权利要求:
百度查询: 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。