买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京鼎泰智源科技有限公司
摘要:本发明涉及涉及数据处理技术领域,尤其涉及一种开庭公告数据处理系统,所述系统包括,信息获取模块,用以获取开庭公告信息;数据清洗模块,对开庭公告信息进行清洗;数据判断模块,对开庭公告信息的有效性进行判断;案由分析模块,对有效开庭公告信息的案由进行分析;特征提取模块,对各预设案由类别的特征词进行提取,根据特征词对各有效开庭公告信息有效开庭公告信息的特征向量进行创建;聚类分析模块,对有效开庭公告信息进行聚类;数据存储模块,根据有效开庭公告信息的聚类结果对各类别有效开庭公告信息的类别关键词进行分析,并根据分析结果对各类别有效开庭公告信息进行存储。本发明提高了开庭公告数据的处理效率。
主权项:1.一种开庭公告数据处理系统,其特征在于,包括,信息获取模块,用以获取开庭公告信息;数据清洗模块,用以对开庭公告信息进行清洗;数据判断模块,用以将预设有效关键词与清洗后的开庭公告信息进行匹配,并根据匹配结果对开庭公告信息的有效性进行判断;案由分析模块,用以将预设案由类别和各预设案由关键词与有效开庭公告信息进行匹配,并根据匹配结果对有效开庭公告信息的案由进行分析;特征提取模块,用以根据预设案由类别下的预设案由关键词和预设案由类别下开庭公告信息对各预设案由类别的特征词进行提取,根据特征词对各有效开庭公告信息的特征向量进行创建;聚类分析模块,用以根据各有效开庭公告信息的特征向量对有效开庭公告信息进行聚类,并对聚类过程进行更新、迭代;数据存储模块,用以根据有效开庭公告信息的聚类结果对各类别有效开庭公告信息的类别关键词进行分析,并根据分析结果对各类别有效开庭公告信息进行存储;所述数据判断模块将预设有效关键词与清洗后的开庭公告信息进行匹配,并根据匹配结果对开庭公告信息的有效性进行判断,其中:当清洗后的开庭公告信息与预设有效关键词完全匹配时,所述数据判断模块判定该开庭公告信息为有效开庭公告信息;当清洗后的开庭公告信息与预设有效关键词不完全匹配时,所述数据判断模块判定该开庭公告信息为无效开庭公告信息;所述案由分析模块将预设案由类别和各预设案由关键词与有效开庭公告信息进行匹配,并根据匹配结果对各预设案由类别与有效开庭公告信息的相关度进行计算,其中: ,其中,αi为第i预设案由类别与有效开庭公告信息的相关度,Si为第i预设案由类别中预设案由关键词的数量,Pwi,s为第i预设案由类别中第s个预设案由关键词的权重,Pai,s为第i预设案由类别中第s个预设案由关键词与有效开庭公告信息匹配的数量,0<s≤Si;所述案由分析模块将各预设案由类别与有效开庭公告信息的相关度进行排序,并将相关度最大的预设案由类别作为有效开庭公告信息的案由;所述特征提取模块设有特征提取单元,所述特征提取单元用以将各预设案由类别下的预设案由关键词与该预设案由类别下有效开庭公告信息进行匹配,并根据比对结果对各预设案由类别中有效开庭公告信息的特征词进行提取,其中当时,所述特征提取单元判定第i预设案由类别中第s个预设案由关键词为第i预设案由类别的非特征词;当时,所述特征提取单元判定第i预设案由类别中第s个预设案由关键词为第i预设案由类别的特征词;其中,Pwi,s为第i预设案由类别中第s个预设案由关键词的权重,Pbi,s为第i预设案由类别中第s个预设案由关键词与第i预设案由类别中所有有效开庭公告信息匹配的数量,k为预设筛选系数;所述特征提取模块设有向量创建单元,所述向量创建单元根据第i预设案由类别的特征词对第i预设案由类别的第t个有效开庭公告信息创建特征向量Tti,设定Tti=c1,c2,c3,...,cri,当第i预设案由类别中第一个特征词与第t个有效开庭公告信息匹配时,c1=1,当第i预设案由类别中第个特征词与第t个有效开庭公告信息不匹配时,c1=0;当第i预设案由类别中第二个特征词与第t个有效开庭公告信息匹配时,c2=1,当第i预设案由类别中第二个特征词与第t个有效开庭公告信息不匹配时,c2=0;当第i预设案由类别中第三个特征词与第t个有效开庭公告信息匹配时,c3=1,当第i预设案由类别中第三个特征词与第t个有效开庭公告信息不匹配时,c3=0;当第i预设案由类别中第r个特征词与第t个有效开庭公告信息匹配时,cri=1,当第i预设案由类别中第ri个特征词与第t个有效开庭公告信息不匹配时,cri=0;ri为第i预设案由类别中特征词的数量,0<r<ri;所述聚类分析模块设有聚类分析单元,所述聚类分析单元用以根据各预设案由类别下的有效开庭公告信息的特征向量Tti对各预设案由类别下的有效开庭公告信息进行聚类,其中: ,所述聚类分析单元将第i预设案由类别中第t个有效开庭公告信息的特征向量与第i预设案由类别中第j个初始聚类中心的特征向量的欧几里得距离进行排序,并将第i预设案由类别中第t个有效开庭公告信息作为第j类有效开庭公告信息;其中,dTti,uji为第i预设案由类别中第t个有效开庭公告信息的特征向量与为第i预设案由类别中第j个初始聚类中心的特征向量的欧几里得距离,Ttir为第i预设案由类别中第t个有效开庭公告信息的特征向量第r个特征值,ujir为第i预设案由类别中第j个初始聚类中心的特征向量第r个特征值。
全文数据:
权利要求:
百度查询: 北京鼎泰智源科技有限公司 一种开庭公告数据处理系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。