买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京汉王影研科技有限公司
摘要:本申请公开了一种基于深度学习的案由提取方法和装置。方法包括:对历史法律文本数据进行清洗、预处理和数据标注,指示案由的位置;将历史法律文本数据划分为训练集、验证集和测试集;利用训练集训练深度学习神经网络模型,并利用训练集对预训练神经网络模型进行微调;获取目标法律文本数据,将目标法律文本数据输入到深度学习神经网络模型中,得到相应案由序列;并将目标法律文本数据输入到预训练神经网络模型中,得到相应文章总结;比较案由序列与文章总结中的潜在案由之间的相似度;基于相似度,结合标准案由大全,判断案由序列是否准确;若判定案由序列准确,输出案由序列。本申请可以有效提高案由提取的准确率,具有更好的泛化能力和适应性。
主权项:1.一种基于深度学习的案由提取方法,其特征在于,包括:S1,从多个领域收集历史法律文本数据,对所述历史法律文本数据进行数据清洗和预处理;S2,对所述历史法律文本数据进行数据标注,指示所述历史法律文本数据中案由的位置;S3,将所述历史法律文本数据划分为训练集、验证集和测试集;S4,利用所述训练集训练深度学习神经网络模型,并利用所述训练集对预训练神经网络模型进行微调;S5,获取目标法律文本数据,将所述目标法律文本数据输入到训练好的所述深度学习神经网络模型中,得到相应案由序列;并将所述目标法律文本数据输入到微调好的所述预训练神经网络模型中,得到相应文章总结;S6,比较所述案由序列与所述文章总结中的潜在案由之间的相似度;基于所述相似度,结合标准案由大全,判断所述案由序列是否准确;S7,若判定所述案由序列准确,输出所述案由序列;所述深度学习神经网络模型包括输入层、BiLSTM层和CRF层;所述输入层用于将法律文本数据表示为词嵌入或字词嵌入;所述BiLSTM层用于学习文本中的上下文信息;所述CRF层用于建模标签序列的依赖性关系;所述预训练神经网络模型为BERT-Base-Chinese模型;利用所述训练集对预训练神经网络模型进行微调前,将所述训练集中的法律文本数据编码为BERT模型可理解的嵌入式表示。
全文数据:
权利要求:
百度查询: 北京汉王影研科技有限公司 一种基于深度学习的案由提取方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。