湖南工商大学张丽敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南工商大学申请的专利一种材料领域文献可溯源问答系统及构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120744077B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511258182.7,技术领域涉及:G06F16/3329;该发明授权一种材料领域文献可溯源问答系统及构建方法是由张丽敏;贺煜东;陈正英;王芷萱;陈荣元设计研发完成,并于2025-09-04向国家知识产权局提交的专利申请。
本一种材料领域文献可溯源问答系统及构建方法在说明书摘要公布了:本发明提供了一种材料领域文献可溯源问答系统及构建方法,涉及人工智能技术领域。将PDF文献转换为结构化的Markdown文本;根据Markdown文本执行双阶段分块操作以获取分块操作结果;执行领域自适应向量编码操作,构建材料科学对应的领域训练数据集对Embedding模型进行训练,根据Embedding模型结合分块操作结果将文本块转化为向量表示;将向量表示存至数据库,建立近似最近邻索引结构;获取用户提问信息并在数据库中执行多级检索优化操作以生成高置信片段;将高置信片段与用户提问信息拼接,驱动领域大语言模型生成带精确引用标记的答案。解决在可溯源问答系统中问答准确率不足且溯源性差的问题。
本发明授权一种材料领域文献可溯源问答系统及构建方法在权利要求书中公布了:1.一种材料领域文献可溯源问答系统,其特征在于,包括: 文献预处理模块,用于将PDF文献转换为结构化的Markdown文本; 文本分块模块,用于根据所述Markdown文本执行双阶段分块操作以获取分块操作结果; 语义编码模块,用于构建材料科学对应的领域训练数据集,并对Embedding模型进行训练,根据训练后的Embedding模型结合所述分块操作结果将文本块转化为向量表示; 索引构建模块,用于将所述向量表示存储至数据库,建立基于聚类桶的近似最近邻索引结构; 智能检索模块,用于获取用户提问信息并在数据库中执行多级检索优化操作以生成高置信片段; 溯源生成模块,用于将高置信片段与用户提问信息拼接,驱动领域大语言模型生成带精确引用标记的答案; 其中,所述文本分块模块中双阶段分块包括第一阶段和第二阶段; 第一阶段基于以文档结构为主线,根据标题层级进行粗粒度分段,附加元数据,第二阶段通过句边界识别规则进行细粒度分块,控制最大分块长度和重叠长度以保持语义连续性; 其中,所述句边界识别规则包括: 设定最大分块长度为,上下文重叠长度为,将段落内容切分为若干子块,满足如下约束: 其中,交集表示两个相邻文本块之间所共享的重叠内容,默认重叠部分以完整句子为单位向前回溯,确保语义连续性不被破坏; 对文本执行句子切分,设原始文本被拆分为句子集合,然后根据以下条件进行拼接: 其中表示第个句子的长度; 当前块的长度接近最大长度时,形成一个新的文本块; 假设当前块包含个句子,根据预设重叠比例计算需保留的重叠句子数,其计算公式如下: 其中,所述索引构建模块,还包括:元数据绑定器、Schema模板以及桶聚类引擎模块; 所述元数据绑定器,用于关联向量与上下文数据,所述上下文数据包括:唯一编号、原始文本内容、文档的ID、段落顺序编号、所属分组及任务标识; 所述Schema模板,包含主键字段,浮点型向量字段,字符串类型的文献标识字段、块级编号与原始内容字段,用于描述文本块在语义空间和结构语境中的位置,所有字段经统一转换后写入Milvus集合中; 所述桶聚类引擎,采用IVF_FLAT索引结合浮点型向量字段构建近似最近邻索引,以余弦距离为度量标准。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南工商大学,其通讯地址为:410000 湖南省长沙市岳麓区岳麓大道569号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励