首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大数据的互联网视频剧本角色情感识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:徐欢

摘要:本发明属于自然语言处理的多标签分类领域,具体涉及一种基于大数据的互联网视频剧本角色情感识别方法;包括采集剧本数据集并进行预处理,得到预训练数据集;基于预训练数据集,采用情感语义增强方法预训练BERT模型;采用预训练好的BERT模型进行prompt范式任务和情感分类任务的联合训练,得到训练好的剧本角色情感识别模型;采集待识别剧本数据输入训练好的剧本角色情感识别模型,输出剧本角色情感识别结果;本发明对不同的情感进行交互,挖掘情感之间的关联,进一步提升了模型预测效果。

主权项:1.一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,包括以下步骤:S1.采集剧本数据集并进行预处理,得到预训练数据集;S2.基于预训练数据集,采用情感语义增强方法预训练BERT模型;步骤S2所述的情感语义增强方法包括CSOP任务和SentimentMASK任务;采用BERT模型对CSOP任务和SentimentMASK任务进行联合预训练,并采用交叉熵损失函数计算联合预训练损失值;CSOP任务用于上下文句子顺序预测,其具体训练过程包括:S211.为预训练数据i=1,2,…,N构建一个文本对zi,构建方法包括:以概率P1选择预训练数据的下文和中间文作为文本对,并打上标签0;以概率P2选择预训练数据的上文和中间文作为文本对,并打上标签1;以概率1-P1-P2选择预训练数据的上文和下文作为文本对,并打上标签2;S212.将预训练数据的文本对zi输入BERT模型,输出文本对zi与预训练数据的语义关系;SentimentMASK任务的训练过程包括:S221.通过情感倾向点互信息算法SO-PMI获取预训练数据中的所有情感词;S222.对于预训练数据中的所有情感词进行替换处理;所述替换处理为以80%的概率用MASK标记进行替换,以20%的概率用其他情感词进行替换;S223.对于预训练数据中除情感词以外的所有词,从中选取15%的词进行替换操作;所述替换操作为以80%的概率用MASK标记进行替换,以10%的概率用其他情感词进行替换,以10%的概率不替换;S224.通过步骤S221-S223得到对应于预训练数据的生成数据将生成数据输入BERT模型并对其MASK标记处的字进行预测;S3.采用预训练好的BERT模型进行prompt范式任务和情感分类任务的联合训练,得到训练好的剧本角色情感识别模型;S4.采集待识别剧本数据输入训练好的剧本角色情感识别模型,输出剧本角色情感识别结果。

全文数据:

权利要求:

百度查询: 徐欢 一种基于大数据的互联网视频剧本角色情感识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术