买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京计算机技术及应用研究所
摘要:本发明涉及一种基于多头注意力机制的多任务联合的要素识别方法,属于自然语言处理技术领域。本发明面向检察业务领域卷宗文档的四类文书,采用多头注意力机制的预训练语言模型,动态获取输入文本的深层次语义信息,构建基于双向长短期记忆网络+条件随机场算法的中文分词模型、基于文本卷积网络的文本分类模型、基于多维度特征融合的要素识别模型。采用并行训练策略共享子任务的参数和信息,能够显著提升模型的学习效率和泛化能力,有效解决检察业务领域传统实体识别技术存在的文本语义提取不全面、要素边界信息无法提取等问题,提升了案件要素识别的准确率。
主权项:1.一种基于多头注意力机制的多任务联合的要素识别方法,其特征在于,该方法包括如下步骤:S1、电子卷宗文档数据预处理:原始电子卷宗文档为PDF格式,将其转换为纯TXT文本格式,使用正则表达式进行数据预处理;S2、构建多任务联合学习要素识别模型的训练数据集,使用BIO标注法对关键案件要素进行逐字标注;具体包括以下步骤:S3、构建多任务联合学习要素识别模型的输入层,使用多头注意力机制的预训练语言模型动态提取输入文本的特征向量;S4、构建多任务联合学习要素识别模型的处理层结构,包括:中文分词任务、文本分类任务和要素识别任务;具体包括以下子步骤:S41、构建基于双向长短期记忆神经网络+条件随机场算法的中文分词任务,通过双向长短期记忆神经网络更好理解当前位置的分词序列与前后文之间的关系,结合条件随机场算法加入分词约束,并考虑序列之间的转换规则和上下文语义,对整个中文分词结果进行全局优化,得到文本分词向量;S42、构建基于文本卷积神经网络的文本分类任务,在每个输入文本的开始位置添加字符[CLS],表示分类,使用基于多头注意力机制的预训练语言模型获取输入文本的文本表征向量,利用文本卷积神经网络的多个卷积核捕捉文本的局部语义信息,并使用最大池化捕捉文本的全局重要特征,获取文本分类结果;S43、将上述子步骤S41获取的文本分词向量和子步骤S42获取的具有类别信息的文本表征向量,进行融合得到多维度语义表征向量;最后,结合条件随机场算法构建基于多维度特征向量融合的要素识别任务;S5、设计多任务联合学习要素识别模型的联合损失函数:分别构建步骤S4的三个任务的损失函数,并初始化每个任务损失函数的权重系数,作为联合损失函数的超参数,通过最小化联合损失函数来优化模型超参数,使得模型在多个任务上共享信息和参数;S6、并行训练基于双向长短期记忆神经网络+条件随机场的中文分词任务、基于文本卷积神经网络的文本分类任务以及基于多维度特征向量融合的要素识别任务,通过最小化联合损失函数来优化模型超参数,直至模型收敛,保存最佳模型参数;最后,通过加载训练完成的模型文件,获取案件要素识别结果。
全文数据:
权利要求:
百度查询: 北京计算机技术及应用研究所 一种基于多头注意力机制的多任务联合的要素识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。