买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天津大学;北京中科闻歌科技股份有限公司
摘要:本发明公开了一种融合句法信息的量子语言模型建模方法,该方法从表示句子的量子系统入手,在模型中引入句法结构信息,以提高量子语言模型的建模能力,包括数据的预处理及句法结构生成模块、句法指导的单词表示模块、语义和语法信息融合的句子表达模块;所述数据的预处理及句法结构生成模块将句子处理成句法结构树的形式;句法指导的词向量表达模块利用每个句子的依存信息,训练单词的词向量表达;语义和语法信息融合的句子表达模块将上一步生成的词向量转换为密度矩阵,进一步得到句法指导的句子表达,以用于下游任务的训练;本发明基于句法结构树重构密度矩阵的生成与表达,利用依存关系建模了句子的词项依赖。
主权项:1.一种融合句法信息的量子语言模型构建系统,其特征在于:所述系统包括数据的预处理及句法结构生成模块、句法指导的词向量表达模块、语义和语法信息融合的句子表达模块和特征抽取模块;所述系统利用依存句法关系,建模句子中的词项依赖,生成融合语法和语义的句子表达;其中:--所述数据的预处理及句法结构生成模块通过依存句法分析对数据集的每一个句子进行初步的处理,生成句子单词间具有依存关系句法结构树;--所述句法指导的词向量表达模块根据句子的依存句法矩阵得到每个单词的父节点,并将单词的词向量与父节点词向量相加,生成基于句法的词向量表达;即,融合句法的语义嵌入矩阵;其中:所述句法指导的词向量表达模块生成融合句法的语义嵌入矩阵过程:201、把每一条数据即每一条语句的每个单词在句法结构树中的父节点找出来,记录其序号作为依存排序矩阵的值生成依存排序矩阵: 其中:XDij解释,每一行代表一条语句的的句法信息,每行的每个元素位置代表句子中单词的位置,每个元素值代表此位置单词在本语句句法结构树中的父节点位置;202、经过预训练的句子嵌入矩阵记为X,矩阵X的每一行代表句子的每一个单词,根据句法排序矩阵对句子的词嵌入矩阵进行排序获得父节点词嵌入矩阵X′,即: 203、将句子词嵌入矩阵与对应的父节点词嵌入矩阵相加获得融合句法的语义嵌入矩阵:--所述语义和语法信息融合的句子表达模块以依存句法矩阵为指导,建立句子中存在依存关系的两个词项间的交互,来增强整个句子的单词之间的交互;其中:将交互后的词项与词项间的依存弧信息融合,并将其表达成一个密度矩阵表示的量子事件,再把单词的密度矩阵加权相加,获得单词交互的句子混合态,此为最终融合语法和语义的句子表达;其中:301、根据所有依存关系类型建立依存弧信息词典,语句S的单词间的依存关系类型记为C:同时,根据依存弧信息词典找出对应依存关系类型C的索引,并映射为词嵌入矩阵,记为CX;CX对应句子中每个单词依存于父节点的类型;其中:C={c1、c2、c3……cs}302、将存在依存关系的两个单词及其两者间的依存关系类型相融合,作为融合句法的量子事件,记为S;其中:S=EX+CX其中:S表示加入句法依存类型的词向量;303、将句子看作是由量子事件组成的量子系统,用密度矩阵ρ表示;ρ=∑ipiSi=∑ipi|SiSi|其中:|Si称为右矢,表示一个列向量,Si|称为左矢,表示一个行向量;密度矩阵的计算方式为:单词作外积后得到一个矩阵,句子的所有矩阵以一定概率p相加得到密度矩阵;在模型中,概率p作为参数存在,跟随模型训练。
全文数据:
权利要求:
百度查询: 天津大学 北京中科闻歌科技股份有限公司 一种融合句法信息的量子语言模型建模系统及其应用
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。