买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:之江实验室
摘要:本发明提供了一种基于知识迁移的多领域情感分类方法及系统。本发明从每个领域挖掘出先验频数作为领域知识,并基于本地字典将挖掘出的知识保存在知识库中,再使用存储在知识库中的知识修正目标领域的模型参数,最后基于修正结果利用训练好的情感分类器模型获得面向目标领域的情感分类预测结果。本发明充分考虑了多领域评论数据中蕴含的共性情感知识,以联邦学习的方式利用其它领域的知识来帮助目标领域的分类任务,从而提高目标领域的情感分类性能,避免了对领域原始数据的访问和使用,能够有效应对样本选择偏差、领域情感特异、数据隐私等问题,保障了各领域数据的隐私性和安全性,具有复杂度低、效率高、准确度高、安全性强、可实施性强的优点。
主权项:1.一种基于知识迁移的多领域情感分类方法,其特征在于,包括:获取目标领域的待分类文本评论语料数据,基于目标领域的本地字典对待分类文本评论语料数据的各单词统计其在情感标注标签为正向和负向的文本评论语料数据中出现的频数;基于全局知识库的其他领域的本地字典对所述待分类文本评论语料数据各单词在情感标注标签为正向和负向的文本评论语料数据中出现的频数进行修正,获得修正后的结果;其中,若所述待分类文本评论语料数据的单词在其他领域的本地字典中的情感极性一致,则利用其他领域的本地字典中对应单词的在情感标注标签为正向和负向的文本评论语料数据中出现的频数进行权重修正;若所述待分类文本评论语料数据的单词在目标领域中在正类概率和负类概率的比值以及在负类概率和正类概率的比值大于等于第一阈值,则对应单词不修正;若所述待分类文本评论语料数据的单词在其他领域的本地字典中的情感极性不一致或所述待分类文本评论语料数据的单词在目标领域中在正类概率和负类概率的比值以及在负类概率和正类概率的比值小于第一阈值,则将其他领域的本地字典中对应单词的在情感标注标签为正向和负向的文本评论语料数据中出现的频数与对应单词在目标领域中情感标注标签为正向和负向的文本评论语料数据中出现的频数加和作为修正结果;基于修正结果利用训练好的情感分类器模型,获得情感分类预测结果;其中,所述全局知识库包含若干个领域的本地字典,本地字典包含对应领域的文本评论语料数据中各个单词、以及各单词在情感标注标签为正向和负向的文本评论语料数据中出现的频数数据;所述情感分类器模型通过收集的目标领域的训练数据集进行训练获得;所述目标领域的训练数据集包括对应领域的文本评论语料及对应的情感标注标签及本地字典。
全文数据:
权利要求:
百度查询: 之江实验室 一种基于知识迁移的多领域情感分类方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。