买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国银联股份有限公司
摘要:本申请公开一种确定文本标签的方法及装置,确定待分类文本的文本特征向量;针对预设标签集合中的任一标签,确定标签的标签特征向量;基于文本特征向量和标签特征向量,确定待分类文本隶属于标签的概率;标签特征向量包括标签的描述特征向量和标签在预设标签集合中的网络关系特征向量;将概率满足预设条件的标签确定为待分类文本的标签。在对待分类文本进行标签的确定时,除了将待分类文本的文本特征向量作为确定标签的依据,还将预设标签集合中的任一标签的标签特征向量作为确定标签的依据,该过程由于增加了预设标签集合中各标签之间存在的逻辑关系及各标签本身具有的描述特征向量,从而该方式对待分类文本进行分类时具有更为准确的分类效果。
主权项:1.一种确定文本标签的方法,其特征在于,包括:确定待分类文本的文本特征向量;针对预设标签集合中的任一标签,确定所述标签的标签特征向量;将所述文本特征向量和所述标签特征向量输入文本分类器,通过所述文本分类器确定所述待分类文本隶属于所述标签的概率;所述标签特征向量包括标签的描述特征向量和标签在所述预设标签集合中的网络关系特征向量;将概率满足预设条件的标签确定为所述待分类文本的标签;其中,所述文本分类器是通过如下方式训练得到的,包括:构建样本,所述样本中包括正样本和负样本;针对任一样本,确定所述样本中文本的第二文本特征向量和所述样本中标签的第二标签特征向量;将所述第二文本特征向量和所述第二标签向量输入至初始模型,根据所述初始模型的输出及所述样本的样本标识进行反向训练,直至得到所述文本分类器;所述样本标识用于指示文本样本为正样本或负样本;其中,通过如下方式确定标签在所述预设标签集合中的网络关系特征向量,包括:构建所述预设标签集合中各标签的网络关系图;所述网络关系图中以各标签为节点,标签间的逻辑关系为边;所述逻辑关系为当前节点存在下一个层级的节点;通过所述网络关系图,将各标签映射至N维空间,得到各标签的N维网络关系特征向量;其中,在所述N维空间中距离越近的标签相似度越高。
全文数据:
权利要求:
百度查询: 中国银联股份有限公司 一种确定文本标签的方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。