买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学深圳国际研究生院
摘要:本发明公开了一种基于医学主题词表增强表征的文本多标签分类方法,包括对标签进行增强表征的步骤:S1、将文献中的医学主题词表作为标签,并建立标签的正样本集合;S2、从所述正样本集合中提取关于标签的关键词信息;S3、从所述关键词信息中提取语义特征,得到所述关键词信息的向量表示,记为第一向量;S4、将标签转化为向量,记为第二向量;S5、连接所述第一向量和所述第二向量以对标签进行增强表征。
主权项:1.一种基于医学主题词表增强表征的文本多标签分类方法,其特征在于,包括对标签进行增强表征的步骤:S1、将文献中的医学主题词表作为标签,并建立标签的正样本集合;步骤S1具体包括:设给定数据集T,包含多篇文献,其中包含的标签数目为Nm;针对每个标签MeSHll=1,2,...,Nm,从训练集中选出含标签MeSHl的文献,构建对应的正样本集合Tl;S2、从所述正样本集合中提取关于标签的关键词信息;S3、从所述关键词信息中提取语义特征,得到所述关键词信息的向量表示,记为第一向量;S4、将标签转化为向量,记为第二向量;S5、连接所述第一向量和所述第二向量以对标签进行增强表征;针对标签MeSHl,其对应的所述第一向量和所述第二向量分别记为通过步骤S5连接所述第一向量和所述第二向量并进行平均池化,得到标签MeSHl的增强表征其中,k为所述关键词信息的长度,d为特征维度,为实数域;S6、利用预训练模型,提取给定数据集T的语义特征并用向量表示,记为向量D;S7、基于向量D,对给定数据集T中的每篇文献t,选出最相似的k篇文献,再从k篇文献中选出出现频率最高的M个标签,将M个标签转化为向量表示记为st;S8、将向量st与文献t进行注意力机制相结合,输出结果向量H;利用如下公式计算文献t和标签MeSHj之间的分数: 其中,σ为sigmoid激活函数,tT表示特征向量t的转置,特征向量t为对文献t进行语义特征提取后得到的特征向量,mj和bj都是可学习的参数,j∈[1,M],αj通过对向量H进行归一化而得到,即: 将结果向量H输入线性分类器,判断所属标签。
全文数据:
权利要求:
百度查询: 清华大学深圳国际研究生院 一种基于医学主题词表增强表征的文本多标签分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。