首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于胶囊网络的多目标细粒度立场分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第三十研究所

摘要:本发明提供一种基于胶囊网络的多目标细粒度立场分析方法,包括如下步骤:抽取贴文文本集中每条贴文文本包含的目标词并进行拼接,得到拼接文本集合;构造胶囊网络作为立场分类模型,并将拼接文本集合输入胶囊网络进行立场分析;所述胶囊网络包括编码层、初级胶囊层和立场类别胶囊层。本发明一方面融合方面词抽取和立场分析方法,解决了现有立场分析模型需要事先指定目标,无法自动识别目标进行多目标立场分析的问题,提升了立场分析模型的适用范围和精准度;另一方面基于胶囊网络来提取文本与目标词之间的深层语义特征并采用基于先验知识构造立场词典来引导动态路由过程,提升了特征提取的准确性,从而提升了立场分析模型的准确率。

主权项:1.一种基于胶囊网络的多目标细粒度立场分析方法,其特征在于,包括如下步骤:抽取贴文文本集中每条贴文文本包含的目标词并进行拼接,得到拼接文本集合;构造胶囊网络作为立场分类模型,并将拼接文本集合输入胶囊网络进行立场分析;所述胶囊网络包括编码层、初级胶囊层和立场类别胶囊层;所述抽取贴文文本集中每条贴文文本包含的目标词并进行拼接包括:利用经过微调的通用信息抽取模型抽取贴文文本集中每条贴文文本包含的目标词,得到每条贴文文本的目标词列表;利用SEP符号将每个目标词和该贴文文本进行拼接,得到“贴文文本SEP目标词”形式的拼接文本集合;所述微调的通用信息抽取模型是指,将经过标注的目标词抽取数据集输入通用信息抽取模型进行微调训练,更新通用信息抽取模型参数,得到在当前领域下抽取精准度更高的信息抽取模型;所述编码层中:利用RoBERTa模型对拼接文本集合中的每条拼接文本进行向量化表征,并利用Glove词典对相应的目标词进行向量化表征,得到拼接文本向量以及目标词向量,并对目标词向量进行平均池化;所述初级胶囊层中:首先利用线性变换和平方激活函数分别处理拼接文本向量和经过平均池化的目标词向量,得到初级胶囊和目标胶囊;然后利用目标胶囊来选择重要的初级胶囊作为主胶囊;最后对主胶囊的权重进行归一化,得到主胶囊的归一化权重;所述立场类别胶囊层中:在训练立场分类模型时,首先根据立场先验知识构造立场词典,并利用立场词的平均嵌入向量作为初始化向量构建立场矩阵,其中,使用Glove词典作为立场词嵌入向量表征模型;然后对立场矩阵进行平方激活得到立场胶囊,最后根据主胶囊和立场胶囊之间的相似度来计算路由权重;在加载立场分类模型并判断贴文文本对目标词的立场时,根据主胶囊、归一化权重和路由权重,计算最终的立场类别。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第三十研究所 一种基于胶囊网络的多目标细粒度立场分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。