首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种多模型融合中文词汇复述抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州师范大学

摘要:本发明公开了一种多模型融合中文词汇复述抽取方法,该方法首先通过文本预处理将原始语料集整理成中文词表集,然后基于“枢轴法”获取对应的候选中文复述词表,并且使用Word2vec训练得到每个词汇的词向量,最后在引入负采样机制的基础上分别利用余弦相似度模型、前馈神经网络模型和卷积神经网络模型计算两个词向量的模型得分,并进行一定参数的加权求和,最终获得候选中文复述词表中每个复述词汇的最终得分,如果最终得分大于指定的阈值,则判断这组复述对是合理的,从而抽取最佳的复述词汇集合。

主权项:1.一种多模型融合中文词汇复述抽取方法,其特征在于,包括步骤:A选择由中文词汇组成的中文词表集,采用“枢轴法”获取其对应的候选中文复述词表;引入负采样机制,随机生成和所述候选中文复述词表中复述词汇同等数量级的无关词汇;B将所述中文词汇、复述词汇和无关词汇分别用Word2vec训练得到各自的词向量;将所得的三类词向量作为训练数据,采用基于pytorch框架的COS模型、FNN模型和CNN模型分别进行正负样本模型训练,得到COS模型分类器、FNN模型分类器以及CNN模型分类器,用于计算互为复述的两个词汇之间的模型得分;C分别利用训练好的COS模型分类器、FNN模型分类器和CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分、FNN模型得分和CNN模型得分,将所得COS模型得分、FNN模型得分和CNN模型得分按照一定的权重参数进行加权求和,作为该词汇对中的复述词汇的最终得分;按照公式1.1利用训练好的COS模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分: 其中,Fn和Fm分别表示所述词汇对中的两个词汇n和m所对应的词向量,Scos为Fn和Fm的余弦相似度,表示两个词汇n和m的语义相似度,即COS模型得分;所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括:对FNN模型进行降维操作,利用tanh函数进行连续三层的线性层降维,最后获得一个一维向量,计算过程如下式1.2所示: 其中,X=[W,Ci,F],W代表所述词汇对中的中文词汇的词向量,Ci代表所述词汇对中的复述词汇的词向量,F代表所述词汇对的特征向量,向量X由W、Ci和F横向拼接得到,l1~l3分别代表对应线性层的输出,W1~W3分别代表对应线性层的权重,b1~b4代表偏差项,最后的FNN模型得分Sfnn通过Sigmoid函数得到,是一个0,1的实数;所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括:将所述词汇对中的中文词汇的词向量W和复述词汇的词向量Ci通过竖向维度进行拼接,即CNN模型通过计算得到平均池化层和卷积层的结果,然后将上述结果与所述词汇对的特征向量F进行横向拼接,即Y,使用tanh函数进行连续两层的线性层降维,最后计算Sigmoid函数,得到最终的CNN模型得分Scnn,是一个0,1的实数,具体计算过程如下式1.3所示: 其中,[W:Ci]表示向量拼接conv2表示卷积操作,avgpooling表示平均池化操作,w1~w3分别代表对应线性层的权重,B1~B3代表偏差项,L1、L2分别代表对应线性层的输出;D按步骤C方法遍历一个中文词汇对应的所有复述词汇,选取所述最终得分不低于设定阈值的复述词汇作为该中文词汇对应的最佳复述词汇集合。

全文数据:

权利要求:

百度查询: 杭州师范大学 一种多模型融合中文词汇复述抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。