买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院计算机网络信息中心
摘要:本发明公开了一种数据出版物可复用性的综合测度方法,该方法包括以下步骤:获取用于构建样本集的数据出版物的施引文献全文;通过数据清洗,识别样本集中数据出版物在全部施引文献全文中所处的章节位置,并提取引用位置所在的段落文本,作为后续模型输入的总样本;定义引用功能及引用极性分类标准,依托语义增强训练具备泛化能力的分类模型;通过不断迭代,获取模型调优参数集,基于总样本形成引用功能及引用极性自动分类的结果样本集;构建并计算数据出版物可复用性影响因子指标,所述影响因子指标包括:引用强度指数、引用热度指数和引用广度指数;构建并计算数据出版物可复用性综合指数。本发明可以实现引用功能和极性的自动分类,形成由引用功能和极性校正后的引用强度,在此基础上,构建由引用强度、引用热度、引用广度组成的计量框架,以客观、完整地揭示数据出版物及其关联数据集可复用性的真实情况与发展潜力。
主权项:1.一种数据出版物可复用性的综合测度方法,其特征在于,包括以下步骤:获取用于构建样本集的数据出版物的施引文献全文;通过数据清洗,识别样本集中数据出版物在全部施引文献全文中所处的章节位置,并提取引用位置所在的段落文本,作为后续模型输入的总样本;定义引用功能及引用极性分类标准,依托语义增强训练具备泛化能力的分类模型;通过不断迭代,获取模型调优参数集,基于总样本形成引用功能和引用极性的自动分类结果样本集;构建并计算数据出版物可复用性影响因子指标,所述影响因子指标包括:引用强度指数、引用热度指数和引用广度指数;构建并计算数据出版物可复用性综合指数。
全文数据:
权利要求:
百度查询: 中国科学院计算机网络信息中心 一种数据出版物可复用性的综合测度方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。