恭喜杭州电子科技大学戴国骏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利一种基于预训练语言模型的实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114647715B 。
龙图腾网通过国家知识产权局官网在2025-04-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210361634.4,技术领域涉及:G06F16/334;该发明授权一种基于预训练语言模型的实体识别方法是由戴国骏;蒋世豪;叶晨;张桦;吴以凡;支浩仕设计研发完成,并于2022-04-07向国家知识产权局提交的专利申请。
本一种基于预训练语言模型的实体识别方法在说明书摘要公布了:本发明公开了一种基于预训练语言模型的实体识别方法。本发明涉及深度学习,自然语言处理任务中的预训练语言模型和数据集成领域中的实体识别子任务。本发明添加了对于实体识别任务本身独特需求的关注,具体是提出一个关注相似片段和数字信息片段的联合实体识别模型,通过一个感知相似片段的编码器和一个感知数字片段的编码器,可以有效处理预训练语言模型在小训练集上注意力分散的问题,从而使模型能够更好的处理实体识别任务。本发明能够在小训练集上较现有最新方法有显著的提升,目前大部分方法都需要大量的训练数据,这就意味着需要大量人工参与标注数据,本发明可以有效节省人工标注的成本。
本发明授权一种基于预训练语言模型的实体识别方法在权利要求书中公布了:1.一种基于预训练语言模型的实体识别方法,其特征在于包括如下步骤:步骤1:数据预处理,根据基于文本相似度的处理方法预先生成所有的实体候选对,针对每个实体候选对记录u,记录v,先将记录u和记录v的实体文本描述分别生成序列Ⅰ和生成序列Ⅱ,然后使用特殊标识符连接生成序列Ⅰ和生成序列Ⅱ,从而得到一个综合生成序列Ⅲ;步骤2:使用预训练语言模型将预处理之后的生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ分别进行分词、提取单词嵌入向量特征,并根据不同的文本长度进行对齐,最后分别得到生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ对应的词向量Eu、词向量Ev和组合后的整个词向量Et;步骤3:提取后的词向量Eu、词向量Ev和词向量Et输入相似片段编码器,捕获每个实体候选对记录u,记录v两条记录之间的相似片段;步骤4:同时也利用数字信息片段编码器来编码预处理的输入,并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段,给出经过数字编码器的向量;步骤5:拼接相似片段编码器和数字片段编码器输出向量和将联合特征向量通过一个线性层和一个softmax层输出分类概率;根据标签数据,计算损失函数,然后进行反向传播,不断微调和优化模型的参数,再次从步骤2得到新的模型输入,反复迭代,当损失函数收敛时停止训练;得到最终的语言模型和编码器参数;步骤3具体实现如下:输入:记录u和记录v经过预训练语言模型提取的词向量Eu和Ev,以及实体候选对记录u,记录v组合后的整个词向量Et;3-1.提取背景语义,将整个实体候选对记录u,记录v的词向量Et作为背景语义,这里选择Et[CLS]来表征整个背景语义,“[CLS]”的词向量汇总了词向量Et的所有token词向量;3-2.背景语义融合,分别在两个记录的词向量Eu和词向量Ev上执行一个背景语义的融合算子,因为Et[CLS]包含了记录对的整体背景语义,采用该融合算子将有助于记录u和记录v之间的注意力交互;3-3.两个记录之间的交互注意力,提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制;结合整体背景语义表达,得到在整体背景语义下的包含相似片段感知的嵌入向量;3-4.特征压缩与提取,采用卷积神经网络CNN进行特征压缩,输入经过交互注意力机制后的词向量和的拼接向量将其进行卷积获得相似片段的信息;定义一个卷积矩阵其中da是CNN的输出向量维度,l是卷积核大小,d是词向量维度;利用不同大小的卷积核进行卷积运算,进一步执行最大池化的操作以获取输出特征步骤4具体实现如下:输入:数字信息片段编码器的输入与上一个编码器稍微不同,只需要实体候选对记录u,记录v组合后的整个词向量Et;4-1.全部实体候选对编辑距离计算,首先计算每个实体候选对包含数字的字符子串的编辑距离su,sv,其中su和sv分别是来自记录u和记录v的包含数字的字符子串,便于从记录u和v中选择出相似的数字型号组合;4-2.子串过滤,对包含子串关系的字符子串组合进行剔除,当一个字符子串su是另一个字符子串sv的子串,或一个字符子串sv是另一个字符子串su的子串时,应当将编辑距离改为0,这是因为两个字符子串可能以不同的格式描述相同的信息;4-3.量化字符子串相似度,在计算完编辑距离的基础上添加一个编辑距离比例;4-4.重要字符子串选择,引入预训练语言模型的自注意力权重来过滤自注意力权重低于设定阈值的字符子串;4-5.综合编辑距离分数计算,在获得所有重要的字符子串后,生成数字感知的词向量和以及它们各自的编辑距离分数4-6.基于卷积神经网络CNN的特征提取,同样使用CNN来提取的联合特征;首先执行不同卷积核的卷积运算,然后同样地通过最大池化操作来获得输出特征
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。