买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京星河智源科技有限公司;知呱呱(天津)大数据技术有限公司
摘要:本申请公开了一种面向专利文本的标记对抽取方法及系统,方法包括首先获取原始专利文本,对原始专利文本中的附图说明和具体实施方式进行解析;然后分别从解析后的附图说明和具体实施方式中抽取标记对得到附图说明标记对字典和具体实施方式标记对字典;将附图说明标记对字典、具体实施方式标记对字典以及推荐实体进行合并得到标记对抽取结果。本申请在进行标记对抽取时不用分词,所以避免了分词误差对抽取效果的影响,同时采用实体判别及去噪模型,进一步优化了标记实体抽取效果。
主权项:1.一种面向专利文本的标记对抽取方法,其特征在于,所述方法包括:获取原始专利文本,对原始专利文本中的附图说明和具体实施方式进行解析;分别从解析后的附图说明和具体实施方式中抽取标记对得到附图说明标记对字典和具体实施方式标记对字典;其中,对具体实施方式中抽取标记对还包括得到推荐实体;将所述附图说明标记对字典、所述具体实施方式标记对字典以及所述推荐实体进行合并得到标记对抽取结果;解析后的具体实施方式中抽取标记对具体包括:获取具体实施方式分割用标点符号;分割具体实施方式,并获取以编号为后缀的所有字符串;移除异常点,获取完整编号;构建标记编号到标记实体列表的字典;移除离群点;获取由公共尾串构成的标记实体列表;调用实体判别及去噪模型,执行标记实体判别及去噪;噪声回收和实体推荐;回收的标记实体及其编号入标记对两字典,推荐的标记实体入字典;移除异常点包括通过构建字典移除标记编号列表中的被截断编号,具体包括:S101:遍历当前待处理的标记实体对应的编号列表multi_num:S1011:验证当前编号num合法性,如果合法则继续S1012,否则继续执行S101;S1012:判断当前待处理标记实体是否存在于字典raw_components{标记实体:编号列表}中,如果存在,则继续S1013,否则执行S1018;S1013:从正构建的字典raw_components{标记实体:编号列表}中获取当前待处理的标记实体的已有编号列表,如果没有,返回空列表,用old_num_lst表示;S1014:如果当前编号num不存在于old_num_lst中并且不是old_num_lst中任一编号的前缀子串,则继续S1015,否则执行S101;S1015:清除old_num_lst中的当前编号num的子串元素,得到new_num_lst;S1016:将当前编号num添加进new_num_lst;S1017:更新字典raw_components{标记实体:标记编号列表}中的键“当前标记实体curr_e”的值为new_num_lst,继续执行S102;S1018:将当前标记实体写入字典raw_components{标记实体:标记编号列表};S102:返回字典raw_components{标记实体:标记编号列表}。
全文数据:
权利要求:
百度查询: 北京星河智源科技有限公司 知呱呱(天津)大数据技术有限公司 一种面向专利文本的标记对抽取方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。