同方知网数字科技有限公司耿崇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉同方知网数字科技有限公司申请的专利一种基于生成式大模型的文献引用内容抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120046583B 。
龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510525209.8,技术领域涉及:G06F40/16;该发明授权一种基于生成式大模型的文献引用内容抽取方法是由耿崇;周哲;钟元;师庆辉;薛德军设计研发完成,并于2025-04-25向国家知识产权局提交的专利申请。
本一种基于生成式大模型的文献引用内容抽取方法在说明书摘要公布了:本发明属于自然语言处理领域,具体涉及了一种基于生成式大模型的文献引用内容抽取方法,旨在解决现有大模型抽取较慢、内容存在字符不一致的问题。本发明方法包括:构建模型微调数据,对生成式大模型进行参数微调,获得引用抽取模型;获取待处理文献,进而获得文本段落集合;对文本段落集合中的每一文本段落进行形式化的特殊符号标签转换;转换后的文本段落集合输入到大模型进行引用抽取,获得引用文本对应的分割标记序号,将其映射到原文获取引用内容。本发明利用特殊符号替换引用内容,改变其抽取引用内容的输入和输出形式,减少大模型输入长度,从而实现抽取速度和抽取效果的提升。
本发明授权一种基于生成式大模型的文献引用内容抽取方法在权利要求书中公布了:1.一种基于生成式大模型的文献引用内容抽取方法,其特征在于,包括以下步骤: S100、获取待处理文献,基于所述待处理文献获取文本段落集合; S200、对所述文本段落集合中的每一文本段落,按句添加分割标记序号,并基于预设的引用标识规则将含有引用片段的内容替换为引用标识符号,获得转换后的文本段落集合; S300、将转换后的文本段落集合输入至预先微调好的引用抽取模型,识别含有引用内容的句子并提取分割标记序号; 其中,所述引用抽取模型是基于预先构建的模型微调数据对生成式大模型进行参数微调获得的,所述引用抽取模型将引用标识符号加入到引用识别规则; S400、将提取到的所述分割标记序号映射到待处理文献的句子位置信息后,进行内容抽取,输出最终引用内容; 对生成式大模型进行参数微调,其方法为: A、获取各类文献,并基于所述各类文献获得文本段落集合; B、给定抽取指令,利用生成式大模型抽取A中文本段落集合中所有含有引用内容的引用句子,构成引用句集合; C、对文本段落集合中每一文本段落,通过S200的方法,获得转换后的文本段落集合; D、提取所述C获得的转换后的文本段落集合中含引用句集合内容和\或含有引用标识符号的句子的分割标记序号,获得分割标记序号集合; E、将所述C获得的转换后的文本段落集合作为模型的输入,所述D获得的分割标记序号集合作为模型的输出,构建微调数据对,基于微调数据对,对生成式大模型进行参数微调,获得引用抽取模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同方知网数字科技有限公司,其通讯地址为:100192 北京市海淀区西小口路66号中关村东升科技园B-2号楼二层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励