买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技集团公司第三十研究所
摘要:本发明提供一种多平台文本二级标签体系搭建及完善迭代的方法,包括:S10,迭代扩充一级标签下的代表词;S20,基于代表词确定初始二级标签;S30,基于初始二级标签完成二级标签扩充与融合。本发明的有益效果是:1、本发明通过代表词语料获取,词向量模型训练,相似词提取的方式扩充代表词数量,极大地减少了人工收集的过程,并且也较大的降低了人工筛选的难度。2、本发明利用代表词聚类的方式自动化生成各代表词的标签类别,对于人工归纳二级标签提供了便利型。3、本发明使用测试文本进行二级标签的进一步扩充融合的方法除了提高了二级标签的覆盖率,对于新文本二级标签的归类和新建也提供了帮助。
主权项:1.一种多平台文本二级标签体系搭建及完善迭代的方法,其特征在于,包括如下步骤:S10,迭代扩充一级标签下的代表词;S20,基于代表词确定初始二级标签;S30,基于初始二级标签完成二级标签扩充与融合;步骤S20包括如下子步骤:S21:将当前一级标签下经过步骤S10获得的所有代表词向量化后进行后续处理;S22:选择一个代表词X,如果该代表词X是第一个代表词,则直接将他作为第一个标签类别,否则转步骤S23:S23:计算该代表词X与现存的所有标签类别做相似度计算;S24:判断步骤S23计算的相似度值是否有大于阈值的:1如果有,将所有大于阈值的相似度进行排序,将该代表词X加入到相似度最大的标签类别;2如果没有,则生成新的标签类别,并将该代表词X加入新的标签类别;S25:重复步骤S22~S24,将所有代表词聚类到相应的标签类别;S26:根据聚类后的各标签类别代表词归纳初始二级标签;步骤S30包括如下子步骤:S31:挑选某一级标签下的一系列文本作为测试文本;S32:选择一条测试文本提取关键词,并计算关键词的平均词向量;S33:计算步骤S32得到的平均词向量与S20得到的初始二级标签各标签类别的平均词向量的相似度;S34:对于相似度小于阈值的关键词,创建新的标签类别并记录该相似度小于阈值的关键词;S35:持续步骤S32~S34将所有测试文本测试完毕;S36:对于新的标签类别中的关键词中,挑选出与该一级标签相关的关键词,并对挑选出的关键词再次做聚类操作;S37:对步骤S36中聚类后的关键词,总结出新的标签类别作为扩充二级标签。
全文数据:
权利要求:
百度查询: 中国电子科技集团公司第三十研究所 一种多平台文本二级标签体系搭建及完善迭代的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。