清华大学许斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学申请的专利一种开放信息抽取模型的训练方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116226324B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211559799.9,技术领域涉及:G06F16/334;该发明授权一种开放信息抽取模型的训练方法和装置是由许斌;齐济;刘金鑫;侯磊;李涓子设计研发完成,并于2022-12-06向国家知识产权局提交的专利申请。
本一种开放信息抽取模型的训练方法和装置在说明书摘要公布了:本发明提供一种开放信息抽取模型的训练方法和装置,包括:获取以自然语言语句为样本的目标数据集;生成所述目标数据集中每一条自然语言语句的转述句;对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。本发明基于转述生成和结构化知识恢复构建一个句法鲁棒的训练框架,使得开放信息抽取模型能够在句法分布充分且准确的数据集上进行训练,以适应真实世界场景。
本发明授权一种开放信息抽取模型的训练方法和装置在权利要求书中公布了:1.一种开放信息抽取模型的训练方法,其特征在于,所述方法包括: 获取以自然语言语句为样本的目标数据集; 生成所述目标数据集中每一条自然语言语句的转述句; 对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识; 所述对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识,包括: 对所述目标数据集中每一条自然语言语句的转述句,采用语义匹配方式,对所述转述句进行论元恢复,得到第一语句; 采用句法树游走方式,对所述第一语句进行论元恢复,得到第二语句; 采用谓词预测方式,对所述第二语句进行谓词恢复,得到所述自然语言语句对应的结构化知识; 以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集; 利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型; 所述利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型,包括: 对所述第一数据集中的转述句进行单词重要度分数标记以及论元随机掩码,得到第二数据集; 对所述目标数据集进行论元随机掩码; 将论元随机掩码的目标数据集和所述第二数据集的并集作为拓展集; 利用拓展集,并按照训练目标训练得到开放信息抽取模型; 其中,所述训练目标表达式如下: ; 上式中,均为待抽取三元组,为所述拓展集中的语句,为所述拓展集上的样本分布,是神经网络模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区双清路30号清华大学清华园北京100084-82信箱;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励