北京工业大学李建强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利一种基于多源词典的交叉Transformer中文医疗命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114707497B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210326124.3,技术领域涉及:G06F40/295;该发明授权一种基于多源词典的交叉Transformer中文医疗命名实体识别方法是由李建强;肖银龙;徐曦设计研发完成,并于2022-03-30向国家知识产权局提交的专利申请。
本一种基于多源词典的交叉Transformer中文医疗命名实体识别方法在说明书摘要公布了:本发明涉及一种基于多源词典的交叉Transformer中文医疗命名实体识别方法。本发明加入多源词典信息,通过特征提取模块,分别提取通用词汇增强的文本特征和医疗词汇增强的文本特征。然后,通过交叉Transformer模块,将上一步得到的2种特征进行交互增强,并动态的进行融合。最终,使用融合后的文本特征来一起预测中文医疗文本中的实体。该方法可以同时使用通用词典信息和医疗领域词典信息,来提升词典和实体之间的匹配率。
本发明授权一种基于多源词典的交叉Transformer中文医疗命名实体识别方法在权利要求书中公布了:1.一种基于多源词典的交叉Transformer中文医疗命名实体识别方法,其特征在于包括以下步骤: S1:多源词典匹配模块MLM: 1.将原始文本复制2份,分别与通用词典、医疗词典进行匹配;将匹配的词汇拼接在文本的后面,分别得到包含通用词典词汇的新文本序列Sg和包含医疗词典词汇的新文本序列Sm;后续和文本序列Sg相关的变量会添加上标g,和文本序列Sm相关的变量会添加上标m; 2.将文本中的字符和词汇统称为片段,通过检索预训练的词典向量表,得到文本序列Sg的向量序列为Hg,文本序列Sm的向量序列为Hm; 3.为每个片段分配两个位置索引:片段第一个字符所在的位置索引head,片段最后一个字符所在的位置索引tail;通过计算两个片段head、tail的差值来得到片段i和片段j之间的相对位置大小hij,tij,公式如下: hij=head[i]-head[j]1tij=tai[i]-tail[j]2 其中head[i]表示片段i的head索引,head[j]表示片段j的head索引,tail[i]表示片段i的tail索引,tail[j]表示片段j的tail索引;然后,计算相对位置大小的向量表示Pd,公式如下: 其中d表示相对位置大小,k表示位置索引,dmodel表示模型的维度;表示向量Pd维度索引为奇数时的值,表示向量Pd维度索引为偶数时的值;通过公式3、4,得到相对位置大小为时的向量表示Ph,相对位置大小为tij时的向量表示Pt;之后,计算片段i和片段j的相对位置向量Rij;公式如下: 其中Wr是随机初始化的参数;ReLU表示ReLU激活函数,表示向量拼接;参数Wr会随着模型多轮训练自动更新,模型训练轮数的取值范围在50到100之间,最终保存多轮训练结果中验证集F1值最高的参数;后续参数的确定方法相同; 通过公式5,可以得到向量序列Hg中片段i和片段j的相对位置向量向量序列Hm中片段i和片段j的相对位置向量 S2:特征提取模块FE 特征提取模块FE采用FlatLatticeTransformer模型FLAT;FLAT接收上一步得到的文本向量序列Hg、Hm以及对应的相对位置向量然后通过嵌入相对位置的多头注意力机制提取片段向量序列Hg的语义特征Fg,提取片段向量序列Hm的语义特征Fm;Fg、Fm包含了文本的上下文语义特征和文本匹配词汇的词汇语义特征;计算公式如下: Fg=softmaxAgVg9 Fm=softmaxAmVm10 Vg=WgHg12 Vm=WmHm13 其中,Vg、Vm分别表示Hg、Hm经过线性变化后的向量,Hi表示片段i的向量,Hj表示片段j的向量,Aij表示片段i和片段j的注意力权重;Am通过公式11得到,表示向量序列Hm中所有片段之间的注意力权重矩阵;Ag通过公式11得到,表示向量序列Hg中所有片段之间的注意力权重矩阵;Wg、Wm、Wq、Wk,R、Wk,H、u、v都是随机初始化的参数,会随着模型多轮训练自动更新,模型训练轮数的取值范围在50到100之间; S3:交叉Transformer模块CT 交叉Transformer模块CT接收上一步得到的词汇增强后的文本特征Fg、Fm;在CT模块中,首先通过交叉注意力机制,来交互Fg、Fm之间的信息,得到交互增强后的文本特征Finter-gc、Finter-mc;计算公式如下: Finter-gc=CrossAttg→mFg,FmFm14 Finter-mc=CrossAttm→gFm,FgFg15 其中CrossAtt表示计算交叉注意力权重;g→m表示以Fg作为CrossAtt的查询条件,以Fm作为CrossAtt的查询字段;m→g表示以Fm作为CrossAtt的查询条件,以Fg作为CrossAtt的查询字段;然后,将交互增强后的信息和输入之前的信息拼接起来,并通过线性变换Linear来保持维度不变,得到最终的交互增强特征Fgc、Fmc;公式如下: Fgc=Linear[Fg;Finter-gc]16 Fmc=Linear[Fm;Finter-mc]17 S4:特征动态融合模块FGF 不同的特征在不同的句子中有不同程度的影响,因此采用特征动态融合模块FGF来动态的选择对特征Fgc、Fmc融合后保留的比重;FGF采用门控机制,使用门控向量Vgate对上一步得到的词汇增强后的文本特征Fgc、Fmc进行加权求和,得到融合后的特征Ff;公式如下: hgc=tanhFgcWgc+bgc18 hmc=tanhFmcWmc+bmc19 Vgate=σ[hgc;hmc]Wgate20 Ff=VgateFgc+1-VgateFmc21 其中,hgc、hmc分别表示Fgc、Fmc经过非线性变换后的向量,Wgc,Wmc,Wgate,bgc,bmc是随机初始化的参数,会随着模型多轮训练自动更新,模型训练轮数的取值范围在50到100之间;σ表示sigmod激活函数,tanh表示tanh激活函数; S5:标签预测模块LP 标签预测模块采用全连接网络和CRF层对上一步得到的特征Ff进行标签预测;全连接网络将文本特征映射到标签分布空间,输出标签预测概率;CRF层接收全连接网络输出的标签预测概率,输出最优的序列标注结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。