恭喜华东师范大学李祥学获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜华东师范大学申请的专利一种可扩展的通用端到端命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115130475B 。
龙图腾网通过国家知识产权局官网在2025-04-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210617397.3,技术领域涉及:G06F40/295;该发明授权一种可扩展的通用端到端命名实体识别方法是由李祥学;李轩舟设计研发完成,并于2022-06-01向国家知识产权局提交的专利申请。
本一种可扩展的通用端到端命名实体识别方法在说明书摘要公布了:本发明公开了一种可扩展的通用端到端命名实体识别方法,包括文本预处理过程,构建模型M,训练模型M,使用模型M进行预测和实体解析过程,模型M包括输入层、上下文编码层、图建模层。文本预处理过程:接收一个文本输入和一个实体类别,生成输入序列;训练模型包括获取数据集,将数据集转换为训练集,使用训练集对模型进行多轮训练;模型训练结束后,将文本预处理过程处理过的输入序列输入模型M,模型M的图建模层计算词之间的连接关系,最后解析图中识别到的实体。本发明可以适应实体重叠和实体非连续情况下的识别,而且能够适应需求变动如新增实体类别的情况而无需修改模型结构,因此容易进行扩展和领域迁移学习。
本发明授权一种可扩展的通用端到端命名实体识别方法在权利要求书中公布了:1.一种可扩展的通用端到端命名实体识别方法,其特征在于,该方法包括以下具体步骤:步骤1:文本预处理过程,生成输入序列,具体为:接收一个文本输入和一个实体类别,在文本首尾各加上一个符号,将实体类别添加在文本的尾部;对首尾添加了符号和实体类别的输入文本进行分词,获得词序列;将词序列映射为数字,数字和词一一映射,满足双射关系,以映射后的数字序列为输入序列,输出为该序列;步骤2:构建模型M,包括:使用上下文编码层接收文本预处理过程输出的输入序列,利用自注意力机制,生成词向量组,丢弃实体类别名称对应的词向量;用有向连接图来建模词之间的有向连接关系,使用词向量组计算各个词之间的有向连接图,有向连接图使用矩阵表示,输出为矩阵表示的图;步骤3:训练模型M;步骤4:使用模型M进行预测;步骤5:对步骤4模型的输出进行实体解析,具体为:接收模型M输出的图,从头开始,遍历整张图,除了首符号直接连接到最后尾符号的路径,每一条以首符号为开始,以最后的尾符号为结束的路径对应的词按路径顺序组合都是一个属于该类别的实体,输出为解析出的实体集合;其中:步骤2所述用有向连接图来建模词之间的有向连接关系,使用词向量组计算各个词之间的有向连接图,具体为:如果一个词为实体的开始,则建立一条句首符号连接到该词有向边;如果在一个实体中,一个词B紧跟在词A之后,则建立一条由词A连接到词B的有向边;如果一个词为实体的结束,则建立一条该词连接到尾符号的有向边;将除了首尾符号以外的词称为中间词,对应的词向量为中间词向量;利用第一个词向量和中间词向量计算首符号和中间词的连接关系,表示该中间词开始实体的概率;利用任意两个中间词的词向量计算两个词之间的连接关系;使用尾词向量和中间词的词向量计算中间词和句尾符号之间的连接关系,表示以该中间词结束一个实体的概率;计算完成后,得到词之间用矩阵表示的有向连接图;所述训练模型M,具体为:获取标注好的数据集,数据集中的每一条数据包括文本t和标签y,标签y中记录了该文本包含的所有实体类别以及对应的实体集合,如果文本t不包含任何类型的实体,则标签y为空;将数据集转换为训练集:定义数据集中出现的所有实体类别名称为集合S,设集合S包含n种实体类别名称;对于数据集中的每一条数据t,y,t为文本,y为标签,对于集合S中每一个类别s,如果标签y中包含对应类别s的实体,即该文本t包含属于类别s的实体非空集合e,以类别s以及对应的实体集合e作为标签y′,将文本t和标签y′作为训练集中的一条数据;如果该文本t不包含属于类别s的实体,以类别s以及对应的实体空集e′作为标签y′,将文本t和标签y′作为训练集中的一条数据;使用训练集对模型M进行多轮训练,每一轮训练包括:将训练集的数据分为多批,每次从训练集中抽取一批数据,对于取出的每一条数据,利用标签中的实体集合生成该批数据的邻接矩阵的真实值;对于一批数据中的每一条,使用步骤1文本预处理过程处理该条数据中的文本和标签中的实体类别,生成输入序列;将该输入序列输入模型,模型计算包括符号在内的所有词之间的连接关系,输出一个邻接矩阵;最后利用模型预测的矩阵和标签生成的真实值矩阵计算损失并根据损失更新模型的权重;所述使用模型M进行预测,具体为:输入一条文本以在其中提取实体,不包含标签及其他信息;选择一个实体类别以确定要在该文本中搜索的实体类别;将文本和实体类别输入步骤1文本预处理过程,得到输入序列;将输入序列输入模型M,模型输出一个邻接矩阵表示的图。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。