Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京邮电大学王睿获国家专利权

南京邮电大学王睿获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京邮电大学申请的专利一种面向在线论坛的低资源话题关键主题抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120146046B

龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510615488.7,技术领域涉及:G06F40/284;该发明授权一种面向在线论坛的低资源话题关键主题抽取方法是由王睿;郑毅;姚遥设计研发完成,并于2025-05-14向国家知识产权局提交的专利申请。

一种面向在线论坛的低资源话题关键主题抽取方法在说明书摘要公布了:本申请属于自然语言处理与文本挖掘技术领域,公开了一种面向在线论坛的低资源话题关键主题抽取方法,包括:通过大型语言模型对原始文本进行语义保持的数据增强,生成增强文档集合;利用预训练语言模型提取文档的上下文感知语义表示;构建可学习的主题嵌入矩阵,计算生成主题分布;设计语义感知对比学习框架,采用动态负样本筛选策略优化主题多样性;同时使用先验对齐损失来确保主题一致性。本发明创新性地融合LLM增强的数据扩充机制与轻量化主题编码架构,通过对比学习正则化和先验分布匹配的双重优化,有效解决了低资源场景下数据稀疏、模型过拟合和噪声敏感三大技术难题,为社交媒体舆情分析提供了高效可靠的主题建模解决方案。

本发明授权一种面向在线论坛的低资源话题关键主题抽取方法在权利要求书中公布了:1.一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述低资源话题关键主题抽取方法具体包括以下步骤: 步骤1、获取在线论坛的低资源文档,通过大型语言模型对获取的低资源文档进行语义保持的数据增强,生成增强文档集合;具体包括如下步骤: 步骤1.1、构建基于大语言模型的文档增强提示模板,生成大语言模型结果,其中所述文档增强提示模板包含语义保持约束条件: a最小语义变异原则:要求生成的增强文档集合中的每一个文本与低资源文档语义相似; b语句流畅度优化:消除拼写错误与语法不规范表达; 步骤1.2、迭代生成:使用预训练语言模型,计算低资源文档与和该低资源文档对应的大语言模型生成结果的嵌入相似度; 步骤1.3、当第i个低资源文档xi∈X对应的生成结果xi的嵌入相似度低于阈值μ时,触发筛选机制即重复执行步骤1.1-步骤1.2,重新生成第i个低资源文档xi对应的生成结果xi,其中X为低资源语料集合,保留每次迭代中最高生成结果的嵌入相似度,低资源语料集合X经过两次数据增强后获得第一次增强文档集合和第二次增强文档集合其中n为低资源语料集合中的文档数目; 步骤2、利用预训练语言模型提取增强文档集合中的文档级别表示; 步骤3、构建可学习的主题嵌入矩阵,通过文档-主题相似度计算文档主题分布; 步骤4、设计语义感知的对比学习框架,在所述对比学习框架同一个批次增强文档中实施动态负样本策略,计算对比学习损失,优化主题嵌入矩阵,用先验对齐损失确保主题一致性,获得主题词;具体包括如下步骤: 步骤4.1、使用增强文档的主题分布作为依据,计算第i个增强文档对应的文档级嵌入表示嵌入和第j个增强文档对应的文档级嵌入表示嵌入之间的相对语义相关性得分sij: 其中,sim·,·表示计算两个向量的余弦相似度; 步骤4.2、通过如下公式筛选对比学习框架同一个批次增强文档中动态负样本: 其中,δ为阈值的超参数; 步骤4.3、对于低资源文档xi∈X,都有低资源文档xi对应的第一次增强文档和第二次增强文档对比学习框架训练时,从低资源语料集合X中随机采样XB=[x1,x2,...,xB],B为批次大小,取随机采样XB的第一批次增强文档和第二批次增强文档分别计算第一批次增强文档主题分布和第二批次增强文档主题分布并构造正样本对同一批次内的负样本对通过Maski,j进行筛选,计算第一批次正样本对和负样本对的对比学习损失第二批次正样本对和负样本对的对比学习损失 其中,M是超参数,τ表示文档级嵌入表示的温度参数,同一批次总的对比学习损失为: 步骤4.3、随机采样两个批次大小即2B先验主题分布并计算先验对齐损失 其中,表示从两批次增强文档中推断出来的主题分布,m为矩阶数,d为当前计算的主题数,为第i个主题分布,为第i个先验主题分布,表示推断出的主题分布域Θ的第d个主题的均值,表示先验分布域Θ′第d个主题的均值,表示的第d个主题,表示的第d个主题; 步骤4.4、总损失函数 其中,λ为超参数; 步骤5、使用大语言模型对步骤4获得的主题词进行拓展、归纳主题见解。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210046 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。