Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向庭审阅卷的案件画像挖掘方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第十五研究所

摘要:本发明公开了一种面向庭审阅卷的案件画像挖掘方法,使用基于规则的方法和基于统计学习的自然语言处理想结合的方法来提取案件画像信息,首先会获取大量真实案件的卷宗并对卷宗文件进行预处理,然后根据宪法、刑法等法律相关知识构建出需要提取的信息也即空的案件画像树,之后基于提炼的规则和模型提取画像树所需要的信息,仅仅需要少量有标注数据就可以进行训练,最后根据提取的信息生成完整的案件画像树,可以实现计算机自动化的阅卷,将卷宗信息提取出来方便法官快速的了解案件信息和后续自动化判案。

主权项:1.一种面向庭审阅卷的案件画像挖掘方法,其特征在于,包括如下步骤:步骤1、获取庭审卷宗数据,对卷宗数据进行清洗去除脏数据,并按照罪名的不同对数据进行分类形成原始的数据集;步骤2、定义案件画像树模型;步骤3、抽取信息,具体包括如下步骤:步骤31、采用步骤1获得的卷宗数据对BERT语言模型进行训练,将文本段落分成个人信息、案件事实和其它三个类别;然后对待识别的各个段落,采用训练好的BERT语言模型识别各段落的类别;步骤32、对于被分类为个人信息的段落,提取其中的个人信息,提取嫌疑人的犯罪历史信息;对于被分类为案件事实的段落,提取其中的案件事实信息;步骤4、根据步骤3获得的个人信息和案件事实信息,将提取的案件信息与案件画像树上定义的案件要素进行关联,填充步骤2的案件画像树模型,得到案件画像树;其中,所述步骤31具体方法为:选取卷宗数据中文书对段落进行标注,一共分为三个类:个人信息、案件事实和其它,每个类含有若干个段落样本,作为训练数据集;利用训练数据集对BERT语言模型进行训练;使用训练后BERT语言模型计算所有训练数据集中各段落样本的输出,并计算每个类的样本输出的均值,分别定义为:s1、s2、s3;在预测阶段,先得到预测样本的BERT模型输出,然后分别计算该输出与s1、s2、s3的欧式距离,最后将需要预测的样本归类到欧式距离最小的类别;其中,对BERT语言模型进行训练后,再采用度量学习对其进行调整,然后用调整后的BERT语言模型预测样本输出;其中,使用度量学习对预训练BERT语言模型进行调整的方法,包括:采用欧式距离度量两个样本的相似性,具体的损失函数为: f表示BERT预训练模型,xi1和xi2是训练数据集中来源于不同类别的训练数据,训练时使用随机梯度下降算法最大化这个损失函数;所述步骤32中,提取犯罪嫌疑人的案件事实信息的方法为:讯问笔录中选择被类别为案件事实的段落;遍历所有选择的段落,在问句中匹配“犯罪过程”四个字,匹配成功的段落即为案件事实的描述段落;受害人的案件事实提取基于受害人的讯问笔录,提取方法与犯罪嫌疑人的一致;嫌疑人的犯罪历史信息的提取方法为:对于被分类为个人信息的段落,找到个人信息的问答对,然后将嫌疑人的回答按照句号分割;遍历分割后的句子,python语言下使用正则表达式“.*?因.*?被.*?法院判处.*?”对句子进行匹配,能够成功匹配的句子即为嫌疑人的历史犯罪信息。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第十五研究所 一种面向庭审阅卷的案件画像挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。