首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种主题监测方法、装置、电子设备和可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国医学科学院医学信息研究所

摘要:本发明涉及一种主题监测方法、装置、电子设备和可读存储介质,通过使用预训练语言模型计算得到包含文本语义和图结构的关键词嵌入向量,在此基础上进行聚类形成语义主题簇,完成主题发现。再使用预训练语言模型计算得到表征文本的语义向量,计算每个时间切片下每篇文本的语义向量和关键词语义簇中心向量的余弦相似度,并经过正则化得到每篇文本的概率分布表征向量,对此概率分布向量进行聚类,得到文本科研主题簇。依据TF‑IDF值从高到低选择TOP5关键词描述和代表不同文本主题簇。然后以间隔时间为单位计算相邻时间切片的主题相似度和关键词重合比率,揭示不同时间序列主题间的演化路径,可以清楚的动态展示出主题随时间的变化过程。

主权项:1.一种主题监测方法,其特征在于,包括:基于预训练语言模型和图卷积神经网络对科研文本集合进行联合处理,得到包含文本语义和图结构的关键词嵌入向量;对所述关键词嵌入向量进行主题聚类,得到所述科研文本集合的关键词语义主题簇;基于所述预训练语言模型对每个预设间隔时间内的科研文本集合进行计算,得到表征每个预设间隔时间内每篇科研文本的语义向量;基于所述每篇科研文本的语义向量和每一个关键词簇中心向量,得到每篇科研文本的概率分布表征向量:计算每个预设间隔时间内每篇科研文本的语义向量和每一个关键词簇中心向量的余弦相似度,并经过Softmax方程的正则化处理后得到每篇科研文本的概率分布表征向量,Softmax方程的公式如下: 其中,zi是概率分布向量的第i个维度上的概率值;cosi是文本语义向量与第i个关键词簇的中心语义向量的余弦相似度大小;e代表欧拉数,cosi则作为它的指数;I代表概率分布向量的维度,其中i=1,...,I;对每个预设间隔时间内所有科研文本的概率分布表征向量进行聚类,得到科研文本主题簇;基于每个科研文本主题簇的中心概率分布向量从所述关键词语义主题簇中提取对应的关键词;基于相邻预设间隔时间科研文本主题簇中心概率分布向量的相似度与关键词重合比率,得到科研文本主题间的演化关系。

全文数据:

权利要求:

百度查询: 中国医学科学院医学信息研究所 一种主题监测方法、装置、电子设备和可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。