买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:海南医学院
摘要:本发明涉及信息提取技术领域,且公开了基于BioBERT与改进Focalloss的药物互作信息提取方法,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,该模型遵循基于R‑BERT的结构,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量。本发明将生物医学语料库BioBERT上预训练的双向编码器表示应用于生物医学文献中的DDI提取。BioBERT得到代表句子中实体的语义向量后,将句子中两个实体的嵌入平均为两个向量,连接第一个token,并通过激活操作通过全连接层。此外,本发明探索了一种改进的focalloss损失函数来处理不平衡数据。在DDIExtraction2013上进行训练后得出,本发明的性能f值达到了80.45%,与传统交叉熵损失函数的BioBERT方法相比,取得了显著的改进。
主权项:1.基于BioBERT与改进Focalloss的药物互作信息提取方法,其特征在于,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量即“[CLS]”,应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分e1、e2和token连接起来,将一个全连接层和一个改进的focalloss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子即两个不同的药物实体,因此,包含一个以上药物对的句子即两个以上不同的药物实体被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“e1”和“e2”分别在每个实体的末尾插入“e1”和“e2”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾;S2、模型训练Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈Rn*d,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量Hi到Hj,i是实体e1的开始令牌的位置,j是实体e1的结束token位置;同样的,表示向量Hk到Hm是实体e2的BioBERT的最终隐藏状态输出,其中k和m是实体e2的开始和结束标记的位置;每个实体的向量表示是通过平均运算得到的;然后创建一个包含dropout层和一个具有激活操作即tanh的致密层的全连接层来计算两个向量;最后,H′1∈Rd*1和H′2∈Rd*1是实体e1和e2的最终输出,其数学表达式如下: 1、2式中W1=W2,b1=b2,因为它们共享相同的参数;对于句子的第一个标记即“[CLS]”,采用全连通层和激活运算,得到H′0∈R1*d,其数学表达式如下:H′0=W0tanhH0+b03其中,W0、W1、W2的维数是相同的,即W0∈Rd*d、W1∈Rd*d、W2∈Rd*d,式中b0、b1、b2均为偏置向量;连接隐藏层:将H′0、H′1、H′2作为h″∈R1*3d,将h″输入到softmax层中得到预测输出,该过程可表示为:h″=concatH′0,H′1,H′24p=softmaxh″5其中,p是最终分类概率的输出;改进的focalloss损失函数:在训练迭代中,通常使用交叉熵作为损失函数,交叉熵的数学表达式为: 式中,y是实例的真实值,pi是预测概率,C是DDI类型的数量;显然,预测概率越接近于真实概率越好;用pt表示yi=1时对应的概率pi,计算损失的交叉熵函数可写为:LossCE′=-logpt7DDIExtraction2013的数据是相当不平衡的,这使得模型很难进行分类,特别是对于实例较少的类型,负实例“None”的数量远远大于其他实例的数量,在损失中所占比列最大,这对梯度密度的影响很大;然而,DDI提取任务主要是识别量中药物实体之间的相互作用,因此需要调整每种类型的权重,以减少噪声负实例的影响;解决不平衡问题的focalloss损失函数如下式所示:L=-α1-ptγlogpt8其中,γγ>0是focalloss损失函数的调制因子,1-ptγ是调整项;对于pt接近于1的易分类实例,其对应的调制项1-ptγ接近于0;当一个pt接近0的难分类实例,其对应的调制项1-ptγ接近1;与交叉熵损失相比,难分类实例的focalloss损失是稳定的,而易分类实例的focalloss损失是减小的总的来说,focalloss损失函数增加了难分类实例的权重,使得损失函数向难分类的实例倾斜;有助于提高难以分类的准确率;式8中的α是对应类别α∈[0,1]的权重因子;每个类别都对应于它唯一的α;对于i类,αi可通过以下公式计算: 其中1是类别的数量,Counti是i类的实例数量;为避免过拟合,结合focalloss损失和交叉熵损失函数,提出了一种改进的多分类focalloss函数,采用改进的损失函数如下:L′i=-1-eαi1-ptγlogpt-elogpt10其中超参数e可用于调整focalloss损失函数和交叉熵损失函数的权重;不同类别的损失e相同,则最终损失为各类损失之和,如式11:
全文数据:
权利要求:
百度查询: 海南医学院 基于BioBERT与改进Focal loss的药物互作信息提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。