一种多模型融合中文词汇复述抽取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州师范大学

摘要：本发明公开了一种多模型融合中文词汇复述抽取方法，该方法首先通过文本预处理将原始语料集整理成中文词表集，然后基于“枢轴法”获取对应的候选中文复述词表，并且使用Word2vec训练得到每个词汇的词向量，最后在引入负采样机制的基础上分别利用余弦相似度模型、前馈神经网络模型和卷积神经网络模型计算两个词向量的模型得分，并进行一定参数的加权求和，最终获得候选中文复述词表中每个复述词汇的最终得分，如果最终得分大于指定的阈值，则判断这组复述对是合理的，从而抽取最佳的复述词汇集合。

主权项：1.一种多模型融合中文词汇复述抽取方法，其特征在于，包括步骤：A选择由中文词汇组成的中文词表集，采用“枢轴法”获取其对应的候选中文复述词表；引入负采样机制，随机生成和所述候选中文复述词表中复述词汇同等数量级的无关词汇；B将所述中文词汇、复述词汇和无关词汇分别用Word2vec训练得到各自的词向量；将所得的三类词向量作为训练数据，采用基于pytorch框架的COS模型、FNN模型和CNN模型分别进行正负样本模型训练，得到COS模型分类器、FNN模型分类器以及CNN模型分类器，用于计算互为复述的两个词汇之间的模型得分；C分别利用训练好的COS模型分类器、FNN模型分类器和CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分、FNN模型得分和CNN模型得分，将所得COS模型得分、FNN模型得分和CNN模型得分按照一定的权重参数进行加权求和，作为该词汇对中的复述词汇的最终得分；按照公式1.1利用训练好的COS模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分：其中，Fn和Fm分别表示所述词汇对中的两个词汇n和m所对应的词向量，Scos为Fn和Fm的余弦相似度，表示两个词汇n和m的语义相似度，即COS模型得分；所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括：对FNN模型进行降维操作，利用tanh函数进行连续三层的线性层降维，最后获得一个一维向量，计算过程如下式1.2所示：其中，X＝[W,Ci,F]，W代表所述词汇对中的中文词汇的词向量，Ci代表所述词汇对中的复述词汇的词向量，F代表所述词汇对的特征向量，向量X由W、Ci和F横向拼接得到，l1～l3分别代表对应线性层的输出，W1～W3分别代表对应线性层的权重，b1～b4代表偏差项，最后的FNN模型得分Sfnn通过Sigmoid函数得到，是一个0,1的实数；所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括：将所述词汇对中的中文词汇的词向量W和复述词汇的词向量Ci通过竖向维度进行拼接，即CNN模型通过计算得到平均池化层和卷积层的结果，然后将上述结果与所述词汇对的特征向量F进行横向拼接，即Y，使用tanh函数进行连续两层的线性层降维，最后计算Sigmoid函数，得到最终的CNN模型得分Scnn，是一个0,1的实数，具体计算过程如下式1.3所示：其中，[W:Ci]表示向量拼接conv2表示卷积操作，avgpooling表示平均池化操作，w1～w3分别代表对应线性层的权重，B1～B3代表偏差项，L1、L2分别代表对应线性层的输出；D按步骤C方法遍历一个中文词汇对应的所有复述词汇，选取所述最终得分不低于设定阈值的复述词汇作为该中文词汇对应的最佳复述词汇集合。

全文数据：

权利要求：

百度查询：杭州师范大学一种多模型融合中文词汇复述抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

下一篇：声纳图像的可视化处理方法、系统和计算装置

相关技术

一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

声纳图像的可视化处理方法、系统和计算装置

一种烟叶分拣定级用的翻转分料装置及方法

一种可移动式预装变电站

制氢装置以及氢发电系统

柔性石墨烯霍尔传感器及其制备方法

一种单元幕墙系统内嵌装饰线条的结构体系

用于车辆空调系统的控制方法、装置、程序产品及介质

一种鞘管弹簧丝绕制装置

一种铝基制冷散热片及其制备方法

一种甲酸钙生产用干燥设备

一种惯性传感器探头装置及多自由度检测方法

中文相关技术

一种基于情感感知和强化学习的中文观点摘要抽取方法_中国电子科技集团公司第三十研究所_202410824581.4

一种基于深度学习的中文拼写纠错方法及系统_云海时空(北京)科技有限公司_202410477020.1

一种基于边界检测的中文命名实体识别方法_安徽理工大学_202210532724.5

一种中文文本语法错误定位方法、系统、设备及介质_西安交通大学_202210536619.9

一种用于中文医疗嵌套命名的实体识别方法_重庆邮电大学_202410332692.3

一种图片中文字抽取识别处理方法及系统_山东声通信息科技有限公司_202410874316.7

一种针对中文语料非正常换行修正的方法及系统_上海岩芯数智人工智能科技有限公司_202410300933.6

基于检索增强生成的语言模型中文拼写检查方法及系统_华中师范大学_202410832719.5

基于AI PaaS平台的中文文本向量化模型的交互数据管理系统_知学云(北京)科技股份有限公司_202410070601.3

一种碳中和领域中文文本的实体关系联合抽取方法及系统_浙江工业大学_202410548218.4

词汇相关技术

开放词汇目标检测中的背景提示学习方法_中山大学_202410651398.9

基于双模态交互的开放词汇三维场景理解方法_中国民用航空飞行学院_202411081166.0

一种基于语料库的民俗词汇翻译系统及方法_临沂大学_202411052293.8

召回词汇确定方法、装置、设备、介质及程序产品_广发证券股份有限公司_202410356800.0

融合词汇和句法信息的中文命名实体识别方法及系统_华侨大学_202210575509.3

词汇检测方法、装置及相关设备_北京声智科技有限公司_202410652424.X

敏感词汇识别方法及系统_中国科学院信息工程研究所_202410632258.7

一种手语词汇识别系统_长沙千博信息技术有限公司_202210363793.8

使用原声词嵌入对直接原声到词的语音识别中的词汇表外的词的识别_国际商业机器公司_202080010147.2

适应多个年龄组和/或词汇水平的自动助理_谷歌有限责任公司_202410503362.6

复述相关技术

基于原文复述机制的食品安全大模型上下文扩展微调方法_北京信睿浩扬科技有限公司_202410567874.9

一种面向智能问诊系统的复述句生成优化方法_杭州师范大学_202011457520.7

一种基于可控隐空间扩散模型的复述语句生成方法_南京大学_202410046114.3

一种多模型融合中文词汇复述抽取方法_杭州师范大学_202011461021.5

一种复述文本的方法、装置、计算机设备及存储介质_腾讯科技(深圳)有限公司_202110630068.8

口语复述题测评方法、装置、设备及存储介质_科大讯飞股份有限公司_202311758041.2

文本复述模型的训练方法、文本复述方法及装置_北京百度网讯科技有限公司_202211727389.0

一种基于关键词的可控文本复述生成方法及装置_南方电网大数据服务有限公司_202210967383.4

基于鹦鹉复述生成器的抽取式问答数据增强方法_江西师范大学_202311483800.9

一种复述生成方法、系统、设备及计算机可读存储介质_长沙理工大学_201910257214.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种多模型融合中文词汇复述抽取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务