首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于词频打分算法获取法律文书案件地点的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市大数据研究院

摘要:本发明公开了一种基于词频打分算法获取法律文书案件地点的方法,先使用传统特征工程进行数据清洗和规则化,再通过TF‑IDF和权重矫正算法给地理句子打分,最终再通过多标签体系找到详细的位置,可以有效提高法律文书犯罪地点提取的准确性。

主权项:1.一种基于词频打分算法获取法律文书案件地点的方法,其特征在于,具体过程为:S1、将待处理的司法文书采用分类算法分成设定的各种文书类型;S2、将经过分类后的司法文书进行特征提取,获得待处理司法文书中包含地理位置的句子列表和受理法院名称的信息;S3、通过top10和top1的TF-IDF融合算法得到待处理司法文书的句子列表中每个句子的评分;具体过程为:S3.1、对每一种文书类型均找到2000份该文书类型下的司法文书样本;S3.2、对每种文书类型,均将每份司法文书样本进行分句,然后将分句中的含有地理位置的句子筛选出来,再人工给这些句子打分;打分标准为:将地理位置从低到高分为省、市、区或县、街道、小区、楼宇信息、房间信息七个等级,等级越高,分数的权重越高,每个句子的分数为该句子中含有的地理位置中所有等级的分数总和;每一个等级所得的分数为2^x,x表示等级,省、市、区或县、街道、小区、楼宇信息、房间信息的等级x分别为0,1,2,…,6;完成人工打分后,对每份司法文书均找出含有地理位置的分数最高的前10个句子和其中分数最高的句子;S3.3、对于每种文书类型,均将每份司法文书样本的最高分的10个句子进行分词,然后通过TF-IDF词频算法得到每个词语的分数;计算公式如下:TF词频公式为:IDF逆词频公式为:TF-IDF最终的公式为:tfidfi,j=tfi,j×idfi;其中,ni,j是词语ti在文书dj中的出现次数,∑knk,j是在文书dj中所有词语的出现次数之和;|D|为文书总数,|{j:ti∈dj}|为包含词语ti的文书数目;S3.4、对于每种文书类型,均对每份司法文书样本里面的最高分句子进行分词,也通过TF-IDF词频算法得到每个词语的分数;S3.5、形成每种文书类型的地理词库打分算法,每种文书类型的地理词库打分算法中,每个词语的分数由步骤S3.3中获得的该词语的分数和步骤S3.4中获得的该词语的分数各占50%权重加总得出;S3.6、将步骤S2获得的司法文书的包含地理位置的句子列表中每一个句子进行分词,并根据其所属的文书类型利用步骤S3.5形成的相应的地理词库打分算法对句子中的各个词语进行打分并加总得到该句子的最终分数,从而得到一个得分最高的句子,然后跳转至步骤S4;S4、对待处理司法文书的评分最高的句子进行地理位置的特征提取,得到该司法文书的案件地点;具体过程为:S4.1、利用步骤S2获得的受理法院名称,获得该受理法院名称的地理位置信息;S4.2、对步骤S3.6获得的得分最高的句子中的地理位置,通过全国的省市区词库找到对应的省、市、县,通过详细地址的词库找到这个句子里面提到的街道、小区、酒店的相关详细地址信息;S4.3、融合步骤S4.1和步骤S4.2得到的地理信息,通过校验和拼接,得到最终的案件地点。

全文数据:

权利要求:

百度查询: 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。