买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院自动化研究所
摘要:本发明提供一种端到端概念体系构建方法及系统,方法包括:将待构建概念集合包括的第一词语对中的任一词语添加到初始概念体系中,所述第一词语对为从所述待构建概念集合包括的词语对之间上下位关系所对应的第一概率分布中,得到的概率最大的词语对;执行至少一次第一处理过程,直至所述待构建概念集合为空为止,根据更新后的初始概念体系,获取所述待构建概念集合对应的概念体系。所述系统执行所述方法。本发明基于词语对之间上下位关系的概率分布,每次选择概率最大的特定词语对添加到概念体系中,构建待构建概念集合的概念体系,能够更为准确的表征待构建概念集合中词语之间的语义特征。
主权项:1.一种端到端概念体系构建方法,其特征在于,包括:将待构建概念集合包括的第一词语对中的任一词语添加到初始概念体系中,所述第一词语对为从所述待构建概念集合包括的词语对之间上下位关系所对应的第一概率分布中,得到的概率最大的词语对;执行至少一次第一处理过程,直至所述待构建概念集合为空为止,根据更新后的初始概念体系,获取所述待构建概念集合对应的概念体系;其中,所述第一处理过程包括:将所述初始概念体系包括的词语从所述待构建概念集合中删除,以更新所述待构建概念集合;将第二词语对中的第一词语添加到所述初始概念体系中,以对所述初始概念体系进行更新,所述第二词语对为从第三词语对之间上下位关系所对应的第二概率分布中,得到的概率最大的词语对,所述第一词语为所述第二词语对中未在所述初始概念体系中的词语,所述第三词语对为更新后的待构建概念集合包括的词语与更新后的初始概念体系包括的词语组成的词语对;其中,所述第一词语对的获取方式,包括:将所述待构建概念集合包括的词语对作为动作向量输入到目标策略网络,得到第一动作特征向量;将所述第一动作特征向量输入到所述目标策略网络,得到所述待构建概念集合包括的词语对之间上下位关系所对应的第一概率分布;根据所述第一概率分布,得到所述第一词语对;其中,所述目标策略网络是通过如下方式获取的:执行至少一次第二处理过程,直至策略网络满足收敛条件为止,得到目标策略网络,所述收敛条件为最后一次第二处理过程中更新得到的概念集合对应的第一概念体系的准确率达到预设值;其中,所述第二处理过程包括:将初始样本的概念集合包括的词语对作为动作向量输入到策略网络中的预训练语言模型,基于所述预训练语言模型得到所述概念集合包括的词语对所对应的第二动作特征向量;将所述第二动作特征向量输入到策略网络中的双层前向神经网络,得到所述概念集合包括的词语对之间上下位关系所对应的第三概率分布;从所述第三概率分布所对应的所述概念集合包括的词语对中随机选择第四词语对;将所述第四词语对包括的任一词语添加到第二概念体系;执行至少一次第三处理过程,更新所述概念集合,直至更新后的概念集合为空为止,根据最后一次第三处理过程中得到的更新后的第二概念体系,获取所述第一概念体系;其中,所述第三处理过程包括:将所述第二概念体系包括的词语从所述概念集合中删除,以更新所述概念集合;将第五词语对作为动作向量输入到所述预训练语言模型,得到所述第五词语对所对应的第三动作特征向量,所述第五词语对为更新后的概念集合包括的词语与更新后的第二概念体系包括的词语组成的词语对;将所述第二概念体系及所述第二概念体系所对应的可视矩阵输入到所述预训练语言模型,得到所述第二概念体系所对应的第一特征向量;将所述第一特征向量输入到策略网络中的单层前向神经网络,对所述第一特征向量的维度进行压缩,得到第二特征向量;将所述第二特征向量和所述第三动作特征向量进行拼接后输入到所述双层前向神经网络,得到所述第五词语对之间上下位关系所对应的第四概率分布;从所述第四概率分布所对应的所述第五词语对中随机选择第六词语对;将第六词语对中的第二词语添加到所述第二概念体系中,以更新所述第二概念体系,所述第二词语为所述第六词语对中未在所述第二概念体系中的词语。
全文数据:
权利要求:
百度查询: 中国科学院自动化研究所 端到端概念体系构建方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。