买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法,属于深度学习技术领域,步骤为:1文本数据向量化处理得到文本对应的向量矩阵;2通过TextCNN模块提取文本数据的空间结构特征;3通过TextRNN模块提取文本数据的序列信息特征;4利用张量将文本数据的空间结构特征和序列信息特征构造为表征能力更强的高阶数据块;5在soft‑max层以高阶数据块作为输入进行分类,得到案件的专业管辖权结果。本发明针对跨域立案中的文本起诉材料设深度混合计算网络,有效融合TextCNN和TextRNN,联合学习文本数据的空间结构特征和序列信息特征,并为此采用张量外积的方式将两种特征提取结果构造成具有丰富语义的高阶数据块,完成分类任务,识别出案件的专业管辖权结果。
主权项:1.一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法,其特征在于,包括以下步骤:步骤1、文本的向量化表示;采用结巴分词模块对文本数据进行分词处理,采用百度停用词列表删除在文本中没有实际意义的停用词,再统计文本中单词出现的频率,选出Top5000的高频词汇作为词汇表;利用Word2Vec完成预训练,将单词转化为词嵌入向量,利用预训练得到的词向量替换文本数据中的单词,并将文本数据填充为统一的长度,将可变长度的文本数据转换为固定大小的l*k维矩阵的输入文本,其中l表示文档中单词的数量,k表示预训练单词转化为向量后的维度;步骤2、TextCNN模块提取文本数据的空间结构特征;对于输入文本经过向量化处理之后得到的嵌入层E1,将数据表示为X∈Rl×k,其中l表示文档中单词的数量,k表示预训练单词转化为向量后的维度;卷积核的大小为w∈Rd×k,其中d代表该卷积核提取到的单词个数;每次操作都是对嵌入层E1中的d个单词进行卷积运算,通过公式1得到对应的特征提取结果qj;qj=fw·xj:j+d+b1其中,b代表偏置项,j代表卷积运算在数据X中的起始位置,f代表ReLU激活函数;共选择使用n个卷积核完成特征提取的任务,得到的特征提取结果如公式2所示;Q=[q1,q2,...,qn]2其中,qi对应着第i个卷积核捕获的特征提取结果;将n个卷积核设置为相同大小,学习互补性的特征;在每次卷积运算之后,使用最大池化运算获得特征提取结果中的最大值,获得其中的显著特征,降低该模块的复杂度;步骤3、TextRNN模块提取文本数据的序列信息特征;在每个时刻t,LSTM通过吸收前一时刻的隐藏状态ht-1和单元状态ct-1以及当前时刻的输入xt,生成当前时刻的隐藏状态ht和单元状态ct;ct的计算过程如下:ft=σWf·[ht-1,xt]+bf3it=σWi·[ht-1,xt]+bi4 ht的计算过程如下:ot=σWo·[ht-1,xt]+bo7 其中,σ代表Sigmoid函数,·代表矩阵乘法,代表逐元素乘法;ft、it和ot分别代表遗忘门、输入门和输出门的输出结果;Wf、Wi和Wo分别代表遗忘门、输入门和输出门的权重;bf、bi和bo分别代表遗忘门、输入门和输出门的偏差;Wc和bc分别代表更新单元状态的权重和偏差;代表当前时刻单元状态的更新值;输出门最后时刻的隐藏状态ht_last用作该模块的输出,作为文本数据的序列信息特征捕获结果;步骤4、基于张量的特征融合;张量是矢量在高维空间中的扩展,N阶张量表示为其中N是张量的阶数,In是张量在第n阶的维数;对于一个N阶张量和一个M阶张量它们的外积产生一个M+N阶张量其中的元素定义为: 其中,a和b分别是张量A和B中的元素;采用张量外积的方式,将TextCNN模块和TextRNN模块分别提取到的文本数据的空间结构特征Q和序列信息特征ht_last构造成高阶的数据块Xs作为文本数据的特征融合结果,并将其作为下一阶段soft-max分类函数的输入;步骤5、soft-max分类,得到案件的专业管辖权结果;将文本数据的特征融合结果Xs作为soft-max分类器层的输入,并输出一个r维的类别向量y,其中r和专业管辖权类别的数量相等,且y中每一个元素的数值范围为0-1;soft-max使用归一化指数函数估计类概率,计算过程如下式: 其中,u代表专业管辖权所属的类别;K代表专业管辖权所属的类别集合;Wp和bp分别代表soft-max分类器层的权重和偏差;选择概率最大的类别标签作为该案件专业管辖权的识别结果。
全文数据:
权利要求:
百度查询: 大连理工大学 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。