Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向事件抽取的大语言模型数据增强方法及其装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院空天信息创新研究院

摘要:本发明提供了一种面向事件抽取的大语言模型数据增强方法及其装置。该方法包括:从初始数据集中获取N个事件模式,事件模式包括事件类别和与事件类别对应的论元角色;基于N个事件模式中的事件类别各自在初始数据集中出现的频率,确定N个事件模式中事件类别各自的采样概率,频率与采样概率成反比;基于N个事件模式中事件类别各自的采样概率,从初始数据集中采样,得到采样数据;将采样数据作为第一上下文提示和提示模板输入大语言模型,输出生成数据,提示模板用于指示大语言模型根据第一上下文提示生成与提示模板关联的生成数据;以及从生成数据中筛选满足预设条件的数据,并存储至初始数据集,得到目标数据集。

主权项:1.一种面向事件抽取的大语言模型数据增强方法,其特征在于,所述方法包括:从初始数据集中获取N个事件模式,其中,所述事件模式包括事件类别和与所述事件类别对应的论元角色,N为大于等于1的整数;基于N个所述事件模式中的所述事件类别各自在所述初始数据集中出现的频率,确定N个所述事件模式中所述事件类别各自的采样概率,其中,所述频率与所述采样概率成反比;基于N个所述事件模式中所述事件类别各自的所述采样概率,从所述初始数据集中采样,得到采样数据;将所述采样数据作为第一上下文提示和提示模板输入大语言模型,输出生成数据,其中,所述提示模板用于指示所述大语言模型根据所述第一上下文提示生成与所述提示模板关联的所述生成数据;以及从所述生成数据中筛选满足预设条件的数据,并存储至所述初始数据集,得到目标数据集;其中,所述提示模板包括事件三元组,所述事件三元组包括所述事件类别、事件触发词和事件论元;所述方法还包括:基于所述采样数据中的所述事件类别,从N个所述事件模式中确定与所述事件类别对应的所述论元角色;根据与所述事件类别对应的所述论元角色,确定所述事件论元;构建所述事件类别的触发词词典,其中,所述触发词词典包括M个触发词,每个所述触发词均与所述事件类别关联;M为大于或等于2的整数;以及从M个所述触发词中确定所述事件触发词;其中,所述事件三元组包括K个,K为大于或等于2的整数;所述从M个所述触发词中确定所述事件触发词,包括:确定所述触发词词典中每个触发词在对应的所述事件类别中被选择的概率;以及基于所述触发词在所述事件类别中被选择的概率,从M个所述触发词中确定K个所述事件触发词。

全文数据:

权利要求:

百度查询: 中国科学院空天信息创新研究院 面向事件抽取的大语言模型数据增强方法及其装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。