买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:一铭寰宇科技(北京)有限公司
摘要:本发明公开了一种基于数据模型的文本分析方法及系统,涉及文本分析技术领域。一种基于数据模型的文本分析系统,包括有:数据采集处理模块、关键词库生成模块、无监督领域适应模块、文法分析模块和评估优化模块。本发明通过关键词引导的遮盖方法在预训练模型的微调过程中重点关注特定领域的高频关键词,从而更好地捕捉目标领域的语义特征;通过结合元学习技术,使模型能够在少量训练样本的情况下快速学习并适应不同的任务,并利用元学习优化后的模型,能够对每个标签进行独立预测,确保在少样本的多标签任务下实现高精度的分类性能。
主权项:1.一种基于数据模型的文本分析方法,其特征在于,包括:S1.采集目标领域的无监督数据,对所采集的数据进行初步的预处理操作,包括数据合并、数据清洗、数据切分和数据筛查,得到标准文本数据;通过词频统计的方式对标准文本数据,提取目标领域中的高频词汇,并根据词的频率构建关键词库,所述关键词库能够有效代表目标领域的核心概念和术语;S2.通过关键词库对标准文本数据进行关键词引导遮盖,将高频出现的关键词用遮盖标记替换,优先选择并遮盖关键词库中的高频出现的关键词,使模型在训练过程中能够更好地捕捉目标领域的语义特征;将遮盖替换后的标准文本作为遮盖语言模型任务对预训练模型进行微调,学习目标领域的词汇语义和上下文关系,优化模型在特定领域的泛化性能;S3.结合元学习算法对预训练模型进行优化训练,得到文本分析模型,使用元学习更新模型参数,使模型具备在不同任务中迅速调整的能力,将优化后的模型参数应用于多标签分类任务中,提高在少样本、多标签情境下的任务表现;将需要进行文本分析的目标领域的文本送入文本分析模型执行多标签分类任务,得到文本分析结果,模型通过对每个标签进行独立预测,确保在少样本的多标签任务下能够实现高精度的分类性能;S4.对生成的文本分析结果与预设的参考文本,进行语义相似度分析,通过与参考文本进行对比,综合计算文本之间的语义相似度,将相似度映射到预设的评分区间内,得到对目标领域概念的理解程度的分析评估,分析评估用于进行模型的后续优化;S5.将文本分析结果,包括多标签分类结果与分析评估,输出为可视化报告,供用户参考。
全文数据:
权利要求:
百度查询: 一铭寰宇科技(北京)有限公司 一种基于数据模型的文本分析方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。