买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中知厚德(北京)信息科技有限公司
摘要:本发明涉及数据处理技术领域,具体涉及基于深度学习的司法文本关键词提取方法,包括:获取司法文本的词组和类型;根据词组在不同司法文本中出现频数,得到信息贡献因子;构建扩张窗口并进行扩张;在扩张过程中获得分布关联性和共现频率;根据分布关联性对共现频率进行修正,得到词组引导率;对词组引导率进行筛选,得到特征引导率;根据信息贡献因子和特征引导率,得到结构权重;根据结构权重进行筛选,得到若干关键词。本发明通过词组的结构权重对词组进行筛选,得到更加准确的司法文本关键词。
主权项:1.基于深度学习的司法文本关键词提取方法,其特征在于,该方法包括以下步骤:获取每个司法文本中的若干词组和每个司法文本的类型;将司法文本的任意一种类型记为目标类型;将属于目标类型的任意一个司法文本记为目标司法文本;将目标司法文本中的任意一个词组记为目标词组;根据目标词组在目标类型的不同司法文本中出现频数的差异,得到目标词组的信息贡献因子;构建目标词组的扩张窗口并对扩张窗口进行多次扩张;在扩张窗口的每次扩张过程中,获得目标词组与当前长度的扩张窗口内的其他词组的分布关联性和共现频率;根据所述分布关联性对所述共现频率进行修正,得到目标词组在当前长度的扩张窗口的词组引导率;对所述词组引导率进行筛选,得到目标词组的特征引导率;根据目标词组的信息贡献因子和特征引导率,得到目标词组的结构权重,获得所有词组的结构权重,根据词组的结构权重对所有词组进行筛选,得到若干关键词;所述分布关联性的获取方法包括:将目标词组在目标类型的所有司法文本中出现的完全相同的词组,记为待匹配词组;将目标词组的当前长度的扩张窗口内任意一个词组记为目标特征词组;根据目标词组与待匹配词组的扩张窗口中目标特征词组分布相似情况,获得目标词组的匹配词组;将目标词组的所有匹配词组在所有待匹配词组中所占的比例,记为目标词组在当前长度的扩张窗口与目标特征词组的联合概率;将目标词组与当前长度的扩张窗口内词组的联合概率,代入信息熵的计算公式中,得到目标词组与当前长度的扩张窗口内的其他词组的分布关联性;所述共现频率的获取方法包括:将目标词组在目标类型的所有司法文本中出现的频率,记作目标词组的词组概率;将目标词组的当前长度的扩张窗口内的任意一个词组,记为目标词组的同窗词组;计算目标词组的词组概率与目标词组在长度为的扩张窗口的第个同窗词组的词组概率的乘积,将目标词组与目标词组在长度为的扩张窗口的第个同窗词组的联合概率与该乘积的比值的自然对数,记作目标词组与目标词组在长度为的扩张窗口的第个同窗词组的特殊程度;将目标词组与目标词组在长度为的扩张窗口的所有同窗词组的特殊程度的和值,记作目标词组与长度为的扩张窗口内的其他词组的共现频率;所述匹配词组的获取方法包括:若任意一个待匹配词组的当前长度的扩张窗口内存在与目标特征词组完全相同的词组,将该待匹配词组记为目标词组的匹配词组;所述根据所述分布关联性对所述共现频率进行修正,得到目标词组在当前长度的扩张窗口的词组引导率,包括的具体步骤如下:计算目标词组与目标词组在长度为的扩张窗口的同窗词组的分布关联性与数值1的和值与目标词组与目标词组在长度为的扩张窗口的同窗词组的共现频率的乘积,将该乘积与长度为的扩张窗口内词组的数量的比值,记作目标词组在长度为的扩张窗口的词组引导率。
全文数据:
权利要求:
百度查询: 中知厚德(北京)信息科技有限公司 基于深度学习的司法文本关键词提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。