Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜浙江工业大学高楠获国家专利权

恭喜浙江工业大学高楠获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜浙江工业大学申请的专利一种基于注意力状态转移模型的生物嵌套命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115017909B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210653161.5,技术领域涉及:G06F40/295;该发明授权一种基于注意力状态转移模型的生物嵌套命名实体识别方法是由高楠;杨博威;王永健;陈朋设计研发完成,并于2022-06-09向国家知识产权局提交的专利申请。

一种基于注意力状态转移模型的生物嵌套命名实体识别方法在说明书摘要公布了:一种基于注意力状态转移模型的生物嵌套命名实体识别方法,包括:1.将包含DNA、RNA、蛋白质、细胞系和细胞这五种类型实体标签的生物领域文本分为训练数据和测试数据;2.根据注意力状态转移模型和语义遮罩模型的输入形式,将训练数据调整为满足模型输入的形式;3.训练注意力状态转移模型,用来学习词与词之间的关联性,通过模型输出的状态可以从文本中提取出候选实体并判断其类型;4.训练语义遮罩模型,用来判断候选实体及其类型是否符合上下文语义;5.将测试数据输入到注意力状态转移模型中,提取出候选实体,随后将提取的实体进行遮罩,送入到语义遮罩模型中进行筛选,最终确认出符合上下文的真实实体。

本发明授权一种基于注意力状态转移模型的生物嵌套命名实体识别方法在权利要求书中公布了:1.一种基于注意力状态转移模型的生物嵌套命名实体识别方法,包含以下步骤:步骤1:将包含DNA、RNA、蛋白质、细胞系和细胞这五种类型实体标签的生物领域文本分为训练数据和测试数据;步骤2:根据注意力状态转移模型和语义遮罩模型的输入形式,将训练数据调整为满足模型输入的形式;注意力状态转移模型的输入是模型的状态,将其定义为一个元组B1,S1,S2,B2,其中B1、B2表示两个队列,用其作为缓冲区Buffer来存储上下文信息,S1、S2表示堆栈Stack,用来存储当前状态下模型需要判断的词;其中S2结构仅存放一个词来用于单个词是否构成实体的判断,S1结构中存放与S2可能构成实体的单词;通过字典{'buffer1':[],'stack1':[],'stack2':[],'buffer2':[]}存放句子中的词来表示当前模型的状态;根据句子中实体及其类型生成注意力状态转移模型数据集的正例,当S1中单个词构成实体或S1与S2中的词构成时,模型的输出标签为其实体的类型,当S1中的词与S2中的词有关联但并没有构成一个完整的实体,用‘correlation’作为模型的输出标签;随机抽取非实体的词生成注意力状态转移模型数据集的负例,用‘not’表示负样例的标签;语义遮罩模型的输入为用特殊标识符将原始句子与遮罩后句子间隔开的句子,遮罩的句子是在原始句子的基础上,将原始句子中的类型实体用其类型标识符进行替换;根据句子中实体及其类型生成语义遮罩模型数据集的正例,随机抽取非实体的词生成注意力状态转移模型数据集的负例;步骤3:训练注意力状态转移模型,用来学习词与词之间的关联性,通过模型输出的状态能够从文本中提取出候选实体并判断其类型;通过拼接上下文表示非上下文表示和字符级表示作为当前词的词向量 其中,通过预训练模型获得;非上下文表示通过预训练的Wordvecs获得;是单词中的每个字符通过BiLSTM模型生成而来;[;]表示向量的拼接操作;B1、B2的状态表示β1、β2都是通过单向LSTM模型对结构中的词向量进行特征提取获得的; 其中,表示B1中第i个词的d维向量表示,表示B2中第i个词的d维向量表示;对于单个词的类型判断,S1的状态表示S1也是通过单向LSTM模型对结构中的词向量进行特征提取获得的; 其中,表示S1中第i个词的d维向量表示;S2的状态表示S2是表示S2中单词的d维向量表示;对于多个词的类型判断,由于模型需要关注到S1与S2两个结构中词的关联性,引入了注意力机制; 其中,表示缩放因子,用于优化点积注意力的缺陷,将值缩放到softmax函数变化最大的区域,放大差距;此时S1的状态表示S1是对S1与S2中词向量进行关注并通过LSTM的结果,S2的状态表示S2是对S2与S1中词向量进行关注的结果;S1=LSTMAttentionS′1,S′26S2=AttentionS′2,S′17其中,表示S1中h个词的词向量所构成的矩阵,表示S2中词的词向量词向量所构成的矩阵;整个模型的状态表示为由4个结构的状态表示拼接而成;Pk=[β1;S1;S2;β2]8得到模型的状态表示Pk后,会通过多层感知器MLP进行分类,将分类结果为实体类型的词作为候选实体;步骤4:训练语义遮罩模型,用来判断候选实体及其类型是否符合上下文语义;利用BERT模型获取遮罩语句和原始语句的全局特征的向量表示v[cls]、v[sep],拼接向量v[cls]和v[sep],并通过多层感知器MLP进行二分类,判断遮罩的实体边界和实体的类型是否上下文语意;步骤5:将测试数据输入到注意力状态转移模型中,提取出候选实体,随后将提取的实体进行遮罩,送入到语义遮罩模型中进行筛选,最终确认出符合上下文的实体;模型的输入为单词序列x0,x1,...,xn,整体的运行过程如下:1.所有词存放入B2中为最初状态,最初状态表示为{'buffer1':[],'stack1':[],'stack2':[],'buffer2':[x0,x1,...,xn]};2.将B2的第一个词放入S2中,当前状态表示为{'buffer1':[],'stack1':[],'stack2':[x0],'buffer2':[x1,...,xn]};3.对S2中的词进行单个词的类型判断;若得到单个词的实体类型,则将该词作为候选实体,并对其进行遮罩后送入语义遮罩模型中进行判断;4.将S2中的词存放入S1中,当前状态表示为{'buffer1':[],'stack1':[x0],'stack2':[],'buffer2':[x1,...,xn]};5.将B2中的第一个词放入S2中,当前状态表示为{'buffer1':[],'stack1':[x0],'stack2':[x1],'buffer2':[x2,...,xn]};6.对S1与S2中的词进行多个词的类型判断;若判断结果为实体类型,则将S1与S2中的词作为候选实体,并对其进行遮罩后送入语义遮罩模型中进行判断;若类型为‘correlation’,则将S2中的词放入S1中,将B2的第一个词放入S2中,即{'buffer1':[],'stack1':[x0,x1],'stack2':[x2],'buffer2':[x3,...,xn]},再进行多个词的类型判断,循环该过程直到输出类型为‘not’或B2为空;7.将状态调整为{'buffer1':[],'stack1':[],'stack2':[x0],'buffer2':[x1,...,xn]},将S2的元素存放入B1中,即{'buffer1':[x0],'stack1':[],'stack2':[],'buffer2':[x2,...,xn]};8.循环过程2到7直到句子中的每个单词都被S2遍历一遍得到候选实体集合,对集合中的实体进行遮罩,并将原始句子和遮罩后的句子送入语义遮罩模型进行判断,若符合上下文语意,则为最后识别的实体,若不符合则舍弃;对测试集中的句子都进行上述操作,会得到所有识别的实体,其中包括嵌套实体和长实体。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。