首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种数据报告生成方法、装置及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国民航信息网络股份有限公司

摘要:本发明提供一种数据报告生成方法、装置及设备,所述方法包括:获取目标业务信息;根据所述目标业务信息,建立业务申报场景;根据所述业务申报场景,得到目标业务的目标数据;根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。本发明的方案可以基于大语言模型,实现报告的高效生成、多方协作、信息的整合与检索,生成了详尽、准确、跨领域知识的数据报告。

主权项:1.一种数据报告生成方法,其特征在于,包括:获取目标业务信息;根据所述目标业务信息,建立业务申报场景;根据所述业务申报场景,得到目标业务的目标数据;根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告;其中,根据所述目标业务信息,建立业务申报场景,包括:根据所述目标业务信息,以问卷形式建立业务申报场景;所述业务申报场景包括:申报场景名称、描述、场景类别、选择申报企业、目标业务和报告模板;其中,根据所述业务申报场景,得到目标业务的目标数据,包括:根据所述业务申报场景,得到目标业务的基本信息和业务流程信息;根据所述目标业务的基本信息和业务流程信息,得到目标数据;其中,根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告,包括:根据所述目标数据,通过数据报告生成模型,得到初步评估报告;根据所述初步评估报告,通过问卷形式修订,得到目标数据报告;其中,根据所述目标数据,通过数据报告生成模型,得到初步评估报告,包括:获取目标数据;数据报告生成模型根据所述目标数据得到申报对象的描述内容信息;获取申报场景的报告模板;将所述申报对象的描述内容信息与申报场景的报告模板结合,得到初步评估报告;其中,将所述申报对象的描述内容信息与申报场景的报告模板结合,得到初步评估报告,包括:将申报方所提供的描述内容信息与报告模板结合,报告内出现多次重复填写的相似内容,调用大语言模型能力,将基本信息输入模型,模型根据信息与设定的文本生成任务自动生成描述信息的文本并填入模板相应位置,实现描述内容自动生成与前后文内容联动,只输入一次可实现后续内容的同步自动填入,最后形成初步评估报告;其中,所述数据报告生成模型是通过如下方法训练得到的:获取训练数据;对所述训练数据进行预处理,得到特征数据;根据所述特征数据,对神经网络模型进行初步训练,得到预测的报告生成内容、知识库检索内容和问答内容;将所述预测的报告生成内容、知识库检索内容和问答内容和历史数据上的真实结果做对比,得到预测误差值;根据所述预测误差值,对模型进行参数调优,直到预测误差值达到预设阈值,得到数据报告生成模型;其中,所述数据报告生成模型的训练与功能应用过程,步骤包括:数据收集、数据预处理、预训练、微调、模型评估与调优、模型部署与功能对接、报告生成功能实现、知识库检索功能实现、智能问答功能实现;从大规模的无监督数据中学习语言的普遍规律和上下文关系,然后通过微调使模型适应具体业务场景的任务要求,并通过评估和调优不断提高模型的性能和泛化能力;经过模型部署与功能对接,利用基础语言能力实现了报告生成、智能问答与知识库检索功能,根据输入的数据和问题,生成相应的报告、答案或建议,并从知识库中检索相关信息;数据收集:收集大模型所需数据形成第一训练数据集,主要包括三方面数据,数据合规政策文件与国际法律法规、申报报告模板与成稿、专业业务知识;数据预处理:将第一训练数据集进行预处理,形成便于大模型处理的第二训练数据集,预处理包括处理错误字符、缺失值填写、文本格式处理、文本翻译、数据标注、去除冗余信息;预训练:将第二训练数据集输入模型,模型通过自监督的学习方式,利用大规模的无监督数据学习数据的表示和关系,理解语言的普遍规律与上下文关系,形成基本语言能力;微调:在已有预训练模型基础上,通过少量专业数据对模型进行进一步训练,使其适应相关领域的服务应用;收集数据合规政策文件与专业业务知识的核心数据,构建第三训练数据集,输入模型进行微调,进一步优化模型在具体任务上的表现;模型评估与调优:对微调后的模型进行评估,以衡量其在具体任务上的性能;根据评估结果,对模型进行调优,包括调整超参数、增加训练数据、进行模型结构的改进;通过迭代优化的过程,提高模型的性能和泛化能力;模型部署与功能对接:将训练好的模型部署到大语言模型模块,并创建API接口,用于实现大模型与各智能应用之间的数据交互;数据报告生成模型对输入数据的处理过程如下:首先将输入的训练数据转换为特征向量,同时对输入的训练数据进行位置编码,得到位置向量,将所述特征向量和位置向量相加,得到向量X,将所述向量X输入数据报告生成模型的编码器;所述数据报告生成模型包括6个编码器、6个解码器;每一个编码器包括一层多头自注意力层和一层前馈神经网络层,每一个解码器包括两个连接的多头自注意力层和一个前馈神经网络层;最底层编码器的多头自注意力层首先接收X向量,并将所述X向量放入矩阵中,得到X矩阵;将所述X矩阵和预设的三个权重矩阵分别相乘,得到Q矩阵、K矩阵和V矩阵;然后根据Q矩阵、K矩阵和V矩阵计算自注意力,得到Z矩阵;所述Z矩阵共8个;将8个Z矩阵进行拼接,拼接后的矩阵和另一预设矩阵相乘,得到最终的Z矩阵;将最终的Z矩阵进行合并归一化后输入前馈神经网络层,所述前馈神经网络层为全连接层,激活函数使用ReLU;前馈神经网络层输出的数据经合并归一化后输出,输出结果输入下一个编码器,进行上述相同的步骤,最终最后一个编码器的输出结果输入解码器的第二层多头自注意力层,用于计算相应的Q向量和K向量;解码器的第一层多头自注意力层输入历史数据上的真实值,同时进行相应的位置编码;第一层多头自注意力层输出的结果和最后一个编码器输出的结果同时输入第二个多头自注意力层,经前馈神经网络后输出解码器解码结果;经过多个解码器依次解码后最终输出预测信息;将所述预测信息输入线性层和归一化指数函数处理后得到预测结果;其中,将所述数据报告生成模型部署到大语言模型,具体包括:将所述数据报告生成模型的问卷模块对接到大语言模型模块的API接口,用于实现部分报告内容的自动生成,问卷模板中写有文本生成任务的文字描述,系统识别任务并将相关业务数据与任务描述传递给模型进行处理,模型理解任务描述的意图,按照要求将业务数据组织成报告文段,文段的生成能力主要来自于微调阶段的已有报告数据训练,文段内容返回问卷模块,并填入报告相应位置;当报告上下文出现相关内容时,根据文本生成任务的描述,模块自动进行内容的同时生成,并将文段内容匹配至报告前后文的具体位置;将所述数据报告生成模型的知识库模块对接到大语言模型模块的API接口,用于传输用户检索的关键字信息,后台接口接收到关键字后,传递给模型进行处理,模型理解关键词或问题与知识库中的内容之间的关联性,在知识库中进行精确检索与模糊检索,并将检索到的信息进行文段整理,并返回知识库模块向用户提供检索结果;将用户提出的问题输入到大语言模型模块的API接口,对问题文本进行预处理,包括去除特殊字符、停用词;将预处理后的问题进行文本向量化,形成大模型容易理解的文本格式;大模型结合问题文本关键词,在已训练的数据集与知识库中进行检索并收集相关信息,将收集到的若干文本进行向量化,与向量化的问题文本进行相关度匹配;大模型利用相关度较高的向量化文本组织语言内容,形成最终答案,并返回智能问答模块;所述大语言模型模块基于专业知识的预训练,形成语言能力用于支持问卷模块、智能问答模块、知识库模块的功能实现;可以根据企业信息内容形成前后文的内容联动:基于问卷中设置的文本生成任务,将其中的企业信息内容输入大语言模型,根据任务要求输出相应文本内容,从而实现报告中重复信息的自动填写;根据用户的询问提供基于专业知识的答案生成:用户提出问题,大语言模型会基于专业知识生成答案,并支持多轮问答,对不满足要求的答案可进行问题修正并继续追问答案;根据用户提供的检索信息识别关键信息,在知识库中进行检索:用户可以提供关键信息,大模型根据信息在知识库中进行精确检索与模糊检索,并将相关的段落内容反馈给用户;大语言模型模块主要负责提供能力支持,问卷模块、智能问答模块、知识库模块中调用其能力;其中,根据所述初步评估报告,通过问卷形式修订,得到目标数据报告,包括:根据所述初步评估报告,得到申报内容难点和存疑申报流程;根据所述申报内容难点和存疑申报流程,通过数据报告生成模型进行评估方与业务方的问答,和或通过数据报告生成模型进行知识库检索,得到目标数据报告;所述大语言模型模块可以根据用户的询问提供基于专业知识的答案生成、支持多轮问答、根据用户提供的检索信息、识别关键信息、在知识库中进行检索、将涉及到的段落内容进行反馈。

全文数据:

权利要求:

百度查询: 中国民航信息网络股份有限公司 一种数据报告生成方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。