买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及基于事件知识嵌入的汉越跨语言查询拓展方法,属于信息检索技术领域。本发明包括骤:构建汉越跨语言事件及时序数据集;通过事件及时序词嵌入部分将事件所对应的时序内容转化为一个向量空间,并将事件知识嵌入其中,嵌入的事件知识采用多边测量法,通过对主体事件的多个侧面描述进行嵌入;在事件及时序词嵌入的基础上,构建汉越跨语言公共字典,将事件知识从单语拓展到汉越跨语言,通过计算汉语事件和事件侧面描述的相似矩阵,进而在维度上实现双语的对齐;通过计算查询和拓展内容的相似性,得到最终事件主体的查询拓展集合。本发明使用不同的基线模型在构建的数据集上进行了实验,结果表明本发明的查询能力相比其他模型得到明显提高。
主权项:1.基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述方法包括:Step1、构建汉越跨语言事件及时序数据集;Step2、通过事件及时序词嵌入部分将事件所对应的时序内容转化为一个向量空间,并将事件知识嵌入其中,嵌入的事件知识采用多边测量法,通过对主体事件的多个侧面描述进行嵌入;Step3、在事件及时序词嵌入的基础上,构建汉越跨语言公共字典,将事件知识从单语拓展到汉越跨语言,通过计算汉语事件和事件侧面描述的相似矩阵,进而在维度上实现双语的对齐;Step4、通过计算查询和拓展内容的相似性,得到最终事件主体的查询拓展集合;所述Step2具体包括如下:Step2.1、根据汉语事件主体X与其对应的越南语事件侧面描述术语集合E,以及越南语事件时序内容T,获得集合E中的多个描述语作为空间中的锚点;Step2.2、再采用余弦距离D计算汉语事件主体X和越南语事件侧面描述术语集合E中各锚点的距离: ;Step2.3、最后在时序向量空间中寻找汉语事件主体X的最佳位置,采用L-BFGS优化算法,最小化锚点到事件主体X的余弦距离D和嵌入时序向量空间后锚点与事件主体X的距离v的均方误差MSE;所述Step3具体包括如下:基于原始嵌入汉语事件主体X和越南语事件侧面描述及时序内容E+T的轴在性质上不同,分别对应的相似矩阵MX和ME+T的两个轴都对应相同的单词;汉语事件主体X和越南语事件侧面描述及时序内容E+T的线性变换矩阵分别为WX和WE+T;Step3.1、在汉越两种语言之间构建了一个字典,并将其编码为稀疏矩阵;在这个矩阵中,如果目标语言中的第j个单词是源语言中第i个单词的翻译,则稀疏矩阵中的元素Dij的值为1,否则为0;Step3.2、对MX和ME+T的每一行中的值进行排序,从而得到排序结果sortedMX和sortedME+T;给定一个单词及其在sortedMX中的行,对sortedME+T的行应用最近邻检索来找到其相应的翻译;Step3.3、使用argmax函数寻求最大化当前字典Dic的相似度的最佳正交映射;Step3.4、计算映射嵌入XWXWE+TE+T的相似度矩阵上的最佳字典;Step3.5、根据上述通过稀疏矩阵的最佳正交映射得到的最佳字典获得事件主体拓展事件集合Ce;所述Step4具体包括如下:Step4.1、根据事件知识嵌入,通过计算查询q和拓展内容的相似性,得到相关事件的集合事件Eq,对于检测到的相关事件,创建一个拓展事件集合Ce;拓展事件集合Ce中包含有两种类型的拓展内容:(1)与查询q高度相近的拓展内容;(2)与相关事件e高度相近的拓展内容;Step4.2、对拓展事件候集合Ce中的每一个拓展事件c采用两种不同方法的组合进行评分:第一种:对于拓展事件c与查询q、相关事件e的相似性进行计算,得到拓展事件c与相关事件e的相似度、拓展事件c与查询q的相似度、相关事件e和查询q的相似度,并根据不同的权重系数,得到事件主体的查询和拓展后的事件描述得分; ;第二种:在时序嵌入空间的基础上,添加时间相关性评估指标TempRel,该评价方式会给发生在时间t内拓展事件c的相关事件e更高的分数,此分数为: ;k表示相关事件e的总数;最终对每一个拓展事件c采用评分的方法是: ;其中,,,和是参数权重,在得到每一个拓展事件c的评分之后,根据每一个拓展事件c的评分和设定的阈值筛选出的得分高的拓展事件c,从而得到最终查询拓展的集合。
全文数据:
权利要求:
百度查询: 昆明理工大学 基于事件知识嵌入的汉越跨语言查询拓展方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。