首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于分段加权相似度匹配算法的机构名称归一化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军92728部队

摘要:本发明公开了一种基于分段加权相似度匹配算法的机构名称归一化方法,对样本S进行分割为如全称知识库Lk的结构;如果未分割出<preGroup>,则计算<name,Rj>的编辑距离矩阵,通过编辑距离矩阵寻找包含<name>的连续前缀的Rj,从name中分离出一级机构名称<preGroup>;如果没有这样的Rj则说明样本S确实不包含一级机构名称;如果有一个或多个Rj,则选取包含前缀最长的Rj作为样本S的一级机构名称;如果分割后的样本S存在<preGroup>,则先遍历计算编辑距离和相似度;再计算样本S中剩下的<name>部分和全称知识库Lk中的<name>部分的相似度;计算相似度,选定最终的归一化全称;本发明通过全称结构分段、中文分词、编辑操作权重调整及剪枝优化等措施,对原编辑距离算法进行了改进优化。

主权项:1.一种基于分段加权相似度匹配算法的机构名称归一化方法,其特征在于,包括以下步骤:步骤一、构建表征机构单位性质的特征词库为Pi,将机构名称按照层次分级,每个机构名称至少由一级机构名称组成,构建机构的一级机构名称知识库为R'j,构建机构的全称知识库为Lk,其中全称知识库Lk结构为<preGroup>+<name><postOrg>,preGroup为上级机构名称,记为Lk.<preGroup>,postOrg为机构后缀,记为Lk.<postOrg>;步骤二、遍历特征词库Pi中的特征词对样本S进行分割为如全称知识库Lk的结构:S=<preGroup>+<name><postOrg>;步骤三、如果样本S未被分割出上级机构名称<preGroup>,则计算<name,Rj>的编辑距离矩阵,在一级机构名称知识库R'j中寻找与name有相同前缀的一级机构名称Rj,且选择其中有相同前缀最长的一级机构名称Rj作为样本S的上级机构名称<preGroup>;步骤四、如果分割后的样本S存在机构后缀preGroup,则先遍历计算preGroup,Rj和<preGroup,Lk.<preGroup>>的编辑距离和相似度;再计算样本S中剩下的<name>部分和全称知识库Lk中的<name>部分的相似度;步骤五、根据相似度大小,选定最终的归一化全称;如样本S中未分割出一级机构名称,则直接以样本S和全称知识库Lk整体比较,取全称知识库Lk中相似度最大的机构全称名作为归一化后的机构全称;其中,相似度计算公式为: 其中,S表示需要归一化的样本名称,L表示语料知识库中科研机构的标准全称,n表示L是由n级机构名称组成,Si表示S中第i级机构,Li表示L中第i级机构,当S中不存在第i级机构名称,即Si为空,则Sim<Si,Li>=0,wi表示每个机构相似度的计算权重;在机构全称的层次上,将不可分割的机构名称定义为原子机构名称,对于有两级以上的机构名称,每一级都作为一个原子机构名称;对原子机构名称进行分词,分词后的名称由地名、专有名词、行业名称、特征词、后缀特征词组成;所述步骤三中,如果没有找到有相同前缀的一级机构名称Rj,则说明样本S确实不包含上级机构名称;如果寻找到一个或多个有相同前缀的一级机构名称Rj,则选取包含与name有相同前缀最长的一级机构名称Rj作为样本S的上级机构名称。

全文数据:

权利要求:

百度查询: 中国人民解放军92728部队 基于分段加权相似度匹配算法的机构名称归一化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。