恭喜中国医学科学院医学信息研究所高东平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国医学科学院医学信息研究所申请的专利一种融合类别信息的疫情问答系统相似问句识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114996420B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210518316.4,技术领域涉及:G06F16/3329;该发明授权一种融合类别信息的疫情问答系统相似问句识别方法是由高东平;李美婷;申喜凤;张维宁;孙媛媛;南嘉乐设计研发完成,并于2022-05-12向国家知识产权局提交的专利申请。
本一种融合类别信息的疫情问答系统相似问句识别方法在说明书摘要公布了:本发明提出一种融合类别信息的疫情问答系统相似问句识别方法,是对特定领域问句的表示和处理的研究,属于数据识别领域。与现有技术相比,本发明所述疫情领域问答系统问句相似度计算方式将问句的类别信息作为重要因素嵌入句向量的生成过程,并采用多头注意力机制。基于上述理由,本发明不仅可以较好的解决疫情相关问题识别,也可在其他限定领域广泛推广。
本发明授权一种融合类别信息的疫情问答系统相似问句识别方法在权利要求书中公布了:1.一种融合类别信息的疫情问答系统相似问句识别方法,其特征在于包括以下步骤:步骤1:在互联网上采集新冠肺炎疫情领域真实问句,形成问句集合D={d1,d2...,dj,...dn},其中dj为采集到具体问句,根据Bert模型的向量生成方式对问句dj进行编码,并将问句的关键词作为问句相应的类别,最终形成包含类别信息和相应的问句的新冠肺炎疫情领域问句的分类信息集;步骤2:对步骤1中的dj的类别信息采用一位有效编码方式进行编码cj={0,0,0,1,0……,0};步骤3:选择问句集合D中任意问句记作q,计算q与问句集合D中其他所有问句的相关性;将输入问句q分解为词素的集合,表示为q={q1,q2,q3,q4,...qi...},1≤i≤m,根据词素qi分别在问句dj和问句集合D中出现的频次信息计算qi与dj的相关性,并对所有词素相对于dj的相关性进行加权,最后得出问句q与问句集D中某一问句dj的相关性得分Scoreq,dj;计算公式如下: qi代表q分解后的词素,Wi代表qi的权重,Rqi,dj表示词素qi与句子dj的相关性;Wi计算公式如下: N是集合D中的问题数量,dfqi表示包含词素qi的句子数;Rqi,dj的计算公式如下: 其中,1.2≤k1≤2.0,表示词素在句子中出现的频率与得分的关系;0≤b≤1,表示句子长度对计算平均长度的影响;tfqi,dj为dj中词素qi出现的频率,lendj为dj的长度,avdl为问句集D中所有问句的平均长度;步骤4:将步骤3中得到Scoreq,dj按从大到小顺序进行排序,排序前的对应问句构成问句集合D’;步骤5:根据Bert模型的向量生成方式,将问句集合D’中所有问句的类别信息利用一位有效编码方式嵌入到Bert模型当中;首先,将步骤4中集合D’中的每一个问句转化为词的线性序列X=x1,x2,……xt,...xn;然后,将词的线性序列X=x1,x2,……xt,...xn输入到Bert嵌入层;将类别信息cj与Bert模型的三种不同的向量表示dj进行平均,合成向量E=e1,e2,......,et,...en,作为Transformer编码器部分的输入;步骤6:将步骤5中的X=x1,x2,……xt,...xn输入注意力机制模型进行问句全局特征的学习;步骤7:在注意力机制层之后,加入全连接层综合所有语义和类别信息进行相似识别,输出问句q和候选问句集D’中问句的相似度数值Similarity。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国医学科学院医学信息研究所,其通讯地址为:100020 北京市朝阳区雅宝路3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。