一种智能行政执法案例信息抽取和案由认定方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东大学

摘要：本发明涉及一种智能行政执法案例信息抽取和案由认定方法，包括：A、数据集的构建；B、语料转换：C、抽取数据预处理及向量化：D、基于DGCNN的抽取模型的训练：E、基于UniLM的短文本生成，训练生成模型；F、输入执法文书文本进行预测：将需要转化的行政执法文书通过步骤A至步骤C处理后，将得到的处理结果输入训练后的抽取模型，生成抽取结果并保存，抽取结果进一步输入训练后的生成模型，得到适合下游其他任务分析的短文本。本发明通过采用DGCNN作为抽取模型，利用其非序列化的神经网络结构特点进行文本数据的信息抽取，大大减少了所耗费的时间资源和计算资源，提升了抽取的准确性。

主权项：1.一种智能行政执法案例信息抽取和案由认定方法，其特征在于，包括步骤如下：A、数据集的构建：爬取行政处罚决定书，提取其中的文本内容，对文本内容中的短文本进行标注；B、语料转换：将行政执法文书中所有长句按照标点符号分割为短句；将步骤A数据集中标注的短文本根据标点符号进行分句；在短文本中找到最长的短句，把这个最长的短句作为标准，从行政处罚文书中找出与这个最长的短句相似的句子，提取并保存，递归执行直到短文本中所有的语句都被执行过一次；C、抽取数据预处理及向量化：步骤B在行政执法文书中抽出了与标签即短文本相似的语句；对抽取出的文本进行过滤，将文本转换成以空格分割的句子序列；将句子序列编码索引；对得到的文本数据进行全局平均池化之后再引入全词Mask的BERT预训练中文模型，补充平均池化，把分割的句子序列转换为句子向量；D、基于DGCNN的抽取模型的训练：将步骤B中在行政执法文书中抽出的与标签即短文本的句子向量当作标签，将行政执法文书整个文本生成的句子向量作为输入，训练抽取模型；E、基于UniLM的短文本生成：将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入，人工标注的短文本作为标签，训练生成模型；F、输入执法文书文本进行预测：将需要转化的行政执法文书通过步骤A至步骤C处理后，将得到的处理结果输入训练后的抽取模型，生成抽取结果并保存，抽取结果进一步输入训练后的生成模型，得到适合下游其他任务分析的短文本，最终得到抽取结果和适合下游其他任务分析的短文本；步骤D的具体实现过程如下：将步骤C得到的行政执法文书文本对应的句子向量当作抽取模型的输入，通过一层的DGCNN提取特征，将提取的特征输入Attention层来完成对序列信息的整合，包括将行政执法文书的句子向量序列编码为一个总的行政执法文书文本向量，将标注短文本的句子向量编码为一个总的标注短文本向量，Attention层如式2所示：式2中，α,W都为可训练参数，而Act为激活函数，取tanch；xi是编码前的序列，x是编码完成后的向量，λi是计算时的权重，softmaxi是激活函数函数，又称归一化指数函数；之后，把步骤C得到的总的行政执法文书文本对应的句子向量X作为输入，将抽取出的最相似句子向量Y作为对应的标签，输入5层DGCNN，之后连接一层全连接层；采用Sigmoid激活函数激活之后，与指定的阈值进行比较，大于阈值的句子向量保存为列表，小于阈值的向量丢弃，之后将句子向量解码为原文本最终得到信息抽取结果；DGCNN是膨胀门卷积神经网络，其搭建方式如下：首先，给普通的一维卷积加个门，公式表示如式3所示：式3中，其中，X表示输入序列，Y表示输出序列，Conv1D1和Conv1D2是两个一维卷积；接下来，使用膨胀卷积；具体是指：先将输入X通过一层全连接层提取特征后输入扩张率为1的膨胀门卷积层，再将输出输入到扩张率为2的膨胀门卷积层；之后再连接一层扩张率为4的膨胀门卷积层和一层扩张率为8的膨胀门卷积层；最后连接两层扩张率为1的膨胀门卷积层后，通过sigmoid激活的全连接层后输出结果Y。

全文数据：

权利要求：

百度查询：山东大学一种智能行政执法案例信息抽取和案由认定方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种木门加工灰尘清理装置

下一篇：一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

相关技术

一种木门加工灰尘清理装置

一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

降噪模型的训练方法、图像降噪方法、电子设备及介质

一种铅酸电池自动组装设备及工艺

一种汽车减震器的衬套装配装置

植物的耐热性或耐干燥性提高剂、耐盐性提高剂、活性提高剂

基于大模型的交互方法、装置、终端设备和存储介质

新能源多场站柔性直流外送系统强度评估方法、装置

用于修复叶片根部的方法

一种轮胎X光检验机输送定位系统及工作方法

基于海洋渔业价值链的海产品汞金属总量核算方法和装置

一种平开窗

信息相关技术

信息处理程序、信息处理方法和信息处理系统_CY游戏公司_202380030937.0

信息处理程序、信息处理方法和信息处理系统_CY游戏公司_202380030934.7

信息提供系统、信息提供方法以及信息提供程序_三菱电机株式会社_202280094451.9

信息处理程序、信息处理方法以及信息处理装置_富士通株式会社_202280094203.4

信息转换系统、信息处理装置、信息处理方法及程序_佳能株式会社_202380030249.4

信息提供装置、信息提供方法以及信息提供程序_NTT通信公司_202380029533.X

信息处理方法及信息处理装置_日产自动车株式会社_202280094468.4

信息收集系统、检查用基板以及信息收集方法_东京毅力科创株式会社_202410556494.5

信息处理设备，信息处理方法和程序_索尼公司_202410970547.8

信息处理装置、信息处理方法及程序_古河电气工业株式会社_202380032075.5

抽取相关技术

一种水样自动抽取装置_深圳市光明区环境水务有限公司_202420499191.X

一种肠胃肿瘤积液抽取装置_成都市青白江区人民医院_202420313890.0

一种瓦斯防治用气体抽取设备_华能铜川照金煤电有限公司西川煤矿分公司_202411144737.0

一种方便抽取的触探杆_喀什建实路桥试验检测有限责任公司_202420293247.6

一种真空抽取设备用防护减震装置_湖南玉丰真空科学技术有限公司_202411051310.6

一种基于知识提示的概念抽取系统_复旦大学_202210419758.3

机油抽取装置及汽车检测系统_东风柳州汽车有限公司_202110840882.2

一种烟气抽取式监测预处理方法及系统_南京磁域环境技术有限公司_202410958775.3

一种五维地震道集数据快速抽取方法_中国石油化工股份有限公司_202310552560.7

一种大模型增强的半开放知识抽取方法和系统_之江实验室_202411456385.2

案由相关技术

一种基于深度学习的案由提取方法和装置_北京汉王影研科技有限公司_202410354901.4

一种智能行政执法案例信息抽取和案由认定方法_山东大学_202210171624.4

一种基于法律文书结构特点的案由识别方法及装置_中国司法大数据研究院有限公司_202311418562.3

一种法律文书案由生成方法、装置、设备及存储介质_人民法院信息技术服务中心_202410981514.3

一种法律文书案由生成方法、装置、设备及存储介质_人民法院信息技术服务中心_202410981514.3

一种案由拆分评测方法、装置、电子设备及存储介质_北京国双科技有限公司_202010326270.7

法律诉讼案由识别方法及装置_盐城天眼察微科技有限公司_202211480950.X

一种基于深度学习的案由提取方法和装置_北京汉王影研科技有限公司_202410354901.4

案由类别获取方法、装置、电子设备_汉王科技股份有限公司_202311776316.5

一种基于法律文书结构特点的案由识别方法及装置_中国司法大数据研究院有限公司_202311418562.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种智能行政执法案例信息抽取和案由认定方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务