基于BioBERT与改进Focal loss的药物互作信息提取方法

导航：龙图腾网> 最新专利技术> 基于BioBERT与改进Focal loss的药物互作信息提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：海南医学院

摘要：本发明涉及信息提取技术领域，且公开了基于BioBERT与改进Focalloss的药物互作信息提取方法，该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理，该模型遵循基于R‑BERT的结构，对于有两个标记药物实体e1和e2的句子，通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量。本发明将生物医学语料库BioBERT上预训练的双向编码器表示应用于生物医学文献中的DDI提取。BioBERT得到代表句子中实体的语义向量后，将句子中两个实体的嵌入平均为两个向量，连接第一个token，并通过激活操作通过全连接层。此外，本发明探索了一种改进的focalloss损失函数来处理不平衡数据。在DDIExtraction2013上进行训练后得出，本发明的性能f值达到了80.45％，与传统交叉熵损失函数的BioBERT方法相比，取得了显著的改进。

主权项：1.基于BioBERT与改进Focalloss的药物互作信息提取方法，其特征在于，该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理，对于有两个标记药物实体e1和e2的句子，通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量；对于来自隐藏层的第一个token向量即“[CLS]”，应用具有激活函数的全连接层；对于句子中的实体，计算每个实体向量的平均值来表示该实体，然后通过具有激活函数的全连接层；最后将向量的三个部分e1、e2和token连接起来，将一个全连接层和一个改进的focalloss损失函数的softmax应用到最终输出中，得到DDIs分类的概率，以确定它们属于哪一类；具体包括以下步骤：S1、预处理：对于一个给定的句子，句子中所有可能的药物实体组合都是由原始数据生成的，实例被定义为一个含有药物对的句子即两个不同的药物实体，因此，包含一个以上药物对的句子即两个以上不同的药物实体被划分为几个实例，实例的数量等于句子中药物对的数量，为了标记药物对，在第一个第二个药物实体的开始插入特殊标记“e1”和“e2”分别在每个实体的末尾插入“e1”和“e2”此外，符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾；S2、模型训练Embedding层：对于目标实体e1和e2的句子，其从BioBERT输出的最终隐藏状态定义为H∈Rn*d，n为BioBERT标记化过程后句子的token数，d为BioBERT的隐藏状态大小；实体e1的BioBERT的隐藏输出将是向量Hi到Hj，i是实体e1的开始令牌的位置，j是实体e1的结束token位置；同样的，表示向量Hk到Hm是实体e2的BioBERT的最终隐藏状态输出，其中k和m是实体e2的开始和结束标记的位置；每个实体的向量表示是通过平均运算得到的；然后创建一个包含dropout层和一个具有激活操作即tanh的致密层的全连接层来计算两个向量；最后，H′1∈Rd*1和H′2∈Rd*1是实体e1和e2的最终输出，其数学表达式如下： 1、2式中W1＝W2，b1＝b2，因为它们共享相同的参数；对于句子的第一个标记即“[CLS]”，采用全连通层和激活运算，得到H′0∈R1*d，其数学表达式如下：H′0＝W0tanhH0+b03其中，W0、W1、W2的维数是相同的，即W0∈Rd*d、W1∈Rd*d、W2∈Rd*d，式中b0、b1、b2均为偏置向量；连接隐藏层：将H′0、H′1、H′2作为h″∈R1*3d，将h″输入到softmax层中得到预测输出，该过程可表示为：h″＝concatH′0，H′1，H′24p＝softmaxh″5其中，p是最终分类概率的输出；改进的focalloss损失函数：在训练迭代中，通常使用交叉熵作为损失函数，交叉熵的数学表达式为：式中，y是实例的真实值，pi是预测概率，C是DDI类型的数量；显然，预测概率越接近于真实概率越好；用pt表示yi＝1时对应的概率pi，计算损失的交叉熵函数可写为：LossCE′＝-logpt7DDIExtraction2013的数据是相当不平衡的，这使得模型很难进行分类，特别是对于实例较少的类型，负实例“None”的数量远远大于其他实例的数量，在损失中所占比列最大，这对梯度密度的影响很大；然而，DDI提取任务主要是识别量中药物实体之间的相互作用，因此需要调整每种类型的权重，以减少噪声负实例的影响；解决不平衡问题的focalloss损失函数如下式所示：L＝-α1-ptγlogpt8其中，γγ＞0是focalloss损失函数的调制因子，1-ptγ是调整项；对于pt接近于1的易分类实例，其对应的调制项1-ptγ接近于0；当一个pt接近0的难分类实例，其对应的调制项1-ptγ接近1；与交叉熵损失相比，难分类实例的focalloss损失是稳定的，而易分类实例的focalloss损失是减小的总的来说，focalloss损失函数增加了难分类实例的权重，使得损失函数向难分类的实例倾斜；有助于提高难以分类的准确率；式8中的α是对应类别α∈[0，1]的权重因子；每个类别都对应于它唯一的α；对于i类，αi可通过以下公式计算：其中1是类别的数量，Counti是i类的实例数量；为避免过拟合，结合focalloss损失和交叉熵损失函数，提出了一种改进的多分类focalloss函数，采用改进的损失函数如下：L′i＝-1-eαi1-ptγlogpt-elogpt10其中超参数e可用于调整focalloss损失函数和交叉熵损失函数的权重；不同类别的损失e相同，则最终损失为各类损失之和，如式11：

全文数据：

权利要求：

百度查询：海南医学院基于BioBERT与改进Focal loss的药物互作信息提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种对开机匣多向自适应浮动固定支撑夹具及其使用方法

下一篇：一种含有温湿度检测装置的氮气柜及其使用方法

相关技术

一种对开机匣多向自适应浮动固定支撑夹具及其使用方法

一种含有温湿度检测装置的氮气柜及其使用方法

电子设备、页面展示方法、交通工具及计算机程序产品

一种弹体夹紧机构的对中夹紧方法

一种季铵盐化合物、盐型及其应用

一种高铁高硫铝土矿脱硫与铁铝资源综合利用方法

一种用于处理生物质气化合成气的非催化转化POX转化炉及处理方法

储能调频系统运行参数值确定方法、装置、处理器及介质

基于混合现实技术的PICC置管长度测量和尖端定位的方法

一种基于光子膜实现LED屏的三维立体光学展示系统及方法

一种实时检测胶水余量的供胶系统以及点胶系统

一种基于安全存储机制的安全芯片架构及关键数据读写方法

互相关技术

建立互操作通道的方法、装置、芯片和存储介质_OPPO广东移动通信有限公司_202280092009.2

一种临床检验结果互认方法、装置、设备及存储介质_东软集团股份有限公司_202410867387.4

用于使用自适应互耦消除进行邻近度检测的装置和方法_高通股份有限公司_201980032818.2

一种基于相位控制的MEMS互同步振荡器_浙江大学_202411368098.6

一种基于互操作技术的船舶避碰决策方法及系统_大连海事大学_202210731056.9

六边形互扣式电极三维硅探测器_湘潭大学_202010045297.9

车车互充控制方法、车载控制器、车辆及存储介质_比亚迪股份有限公司_202310486068.4

一种双机互备式柴油发电机组控制系统_福建永强力加动力设备有限公司_202420026831.5

一种考虑互耦效应的随机阵列天线方向图综合方法_中国电子科技集团公司第五十四研究所_202210019891.X

融合门控与线性注意力机制G×E互作的基因组预测方法_华中农业大学_202410899678.1

药物相关技术

药物吸入辅助装置_北京清华长庚医院_202323315404.3

药物、用途以及方法_生物发明国际公司_202410911128.7

抗体药物偶联物_第一三共株式会社_202410810871.3

药物分流设备及方法_上海维祥信息技术有限公司_202411091817.4

重组人源化抗Nectin-4单抗-MMAE偶联药物的药物组合物_石药集团巨石生物制药有限公司_202480000357.1

包含蛋白激酶抑制剂和化疗药物的药物组合物及其用途_深圳微芯生物科技股份有限公司_202410871366.X

抗TIM-3抗体与去甲基化药物的药物组合_正大天晴药业集团南京顺欣制药有限公司_202380027569.4

角膜接触镜及药物缓释方法_复旦大学附属眼耳鼻喉科医院_202411311408.0

一种药物沉淀过滤装置_安徽万士生物制药有限公司_202420358477.6

一种药物涂抹装置_广东医科大学附属第二医院_202420345971.9

loss相关技术

一种基于两部分Loss的汉盲自动转换方法及系统_兰州大学_202410628465.5

一种基于In line测定仪的PVA loss率改善方法_杉金光电(广州)有限公司_202211302937.5

一种基于Triplet Loss的单塔模型多表选取方法_浙江大学计算机创新技术研究院_202311547169.4

一种基于分割模型中心距离loss的检测锂电池极耳的检测方法_上海贝特威自动化科技有限公司_202311379016.3

一种基于triplet loss的离线签名验证方法_南京信息工程大学_202110672891.5

一种基于RS loss的目标检测模型的训练方法及装置_苏州浪潮智能科技有限公司_202111162166.X

一种改进型Hungarian Loss函数及目标检测训练方法_博雷顿科技股份公司_202310663855.1

双loss价值网络深度强化学习KVFD模型力学参数全局优化方法及系统_西安交通大学_202110368257.2

一种基于ArcFace Loss和改进残差网络的指静脉身份验证方法_圣点世纪科技股份有限公司_202010414634.7

基于多网络层loss融合的路牌识别方法及装置_智道网联科技(北京)有限公司_202310180364.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于BioBERT与改进Focal loss的药物互作信息提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务