首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种碳中和领域中文文本的实体关系联合抽取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江工业大学

摘要:一种碳中和领域中文文本的实体关系联合抽取方法,针对碳中和的中文文本,利用Atom‑7B大模型得到文本句子的特征表示向量,然后通过PFN以联合抽取的方式得到文本中的实体关系三元组。以及提供一种碳中和领域中文文本的实体关系联合抽取系统,针对关系类型标注不平衡的训练数据,使用ChatGLM3接口对关系类型样本量少的文本句子进行数据增强;使用Atom‑7B大模型,通过在Embedding层添加噪声以及解码器层采用分层去掩码的策略,提取中文文本句子的特征表示向量;根据命名实体识别任务和关系抽取任务的难易程度,加入了动态损失函数,使PFN能关注更难的子任务。本发明提升了中文文本中抽取实体关系三元组的性能。

主权项:1.一种碳中和领域中文文本的实体关系联合抽取方法,其特征在于,所述方法包括如下步骤:步骤一,碳中和中文文本数据的收集:从中国碳核算数据库、全球实时碳数据、世界银行数据库网站获取中国和世界各国的碳排放数据,收集各省市的碳排放评价要求指南,在碳中和信息网,用网络爬虫的方法爬取碳中和政策标准、通知公告和相关信息,从指定段落中得到待抽取实体关系非结构化的碳中和中文文本,以及给定的本体约束集合,所述本体约束集合包括关系名称、头实体类型和尾实体类型,根据预设比例将已标注的碳中和中文文本数据划分为训练集D1和验证集D2,所述碳中和中文文本数据包括各样本所包含的主语、宾语、关系以及类别标签;步骤二,用ChatGLM3对训练集D1进行数据增强:统计训练集D1中所有三元组中各种关系出现的次数,判断关系类型是否存在长尾分布情况,针对关系类型不平衡的训练数据,使用ChatGLM3接口对样本量少的关系类型进行数据增强,生成原文本有相同的关系三元组的样本集加入D1中;步骤三,用扩充后的D1训练实体关系联合抽取模型:将D1的中文文本句子输入Embedding层,得到嵌入向量后添加噪声,依次输入分层去掩码的Atom-7B大模型和PFN模型,输出文本句子对应的实体和关系预测值,并通过自动调整命名实体识别和关系抽取的损失权重计算动态损失函数,根据损失梯度联合优化实体关系联合抽取模型的参数,并保存验证集D2上抽取性能最佳的模型参数;步骤四:将没有标注的碳中和中文文本句子输入训练好的Atom-7B大模型,得到文本句子的特征表示向量后,再将特征表示向量传入PFN模块,输出实体关系三元组。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种碳中和领域中文文本的实体关系联合抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。