首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种混合专家模型构建方法、装置、设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东浪潮科学研究院有限公司

摘要:本发明公开一种混合专家模型构建方法、装置、设备及存储介质,涉及人工智能和机器学习技术领域;本发明通过动态选择和组合多个领域专家模型,能够提供更加精准、高效的复杂问题解决方案。同时,反馈循环机制使得系统能够不断学习和适应新的数据和问题,增强了模型的长期应用价值。该混合专家模型构建方法、装置、设备及存储介质在金融分析、市场研究、医疗诊断等需要处理和分析大量异构数据的复杂问题情境中具有广阔的应用前景。

主权项:1.一种混合专家模型构建方法,其特征在于,包括:S1,根据每个垂类专家模型,通过预训练进行对应领域的专业能力学习;S2,根据门控机制,通过选择对应的所述垂类专家模型进行激活;S3,根据激活的所述垂类专家模型作为集成框架,并通过门控机制解析得到每个所述垂类专家模型的输出权重;S4,根据接收复杂问题的输入,通过所述集成框架进行格式转换,得到混合专家模型;S5,根据所述混合专家模型,通过以下公式四进行微调处理: 公式四其中,表示微调后的模型参数,表示对应领域复杂问题的训练数据集;S1,具体包括:S11,基于通用大模型使用对应领域的数据按照公式一进行微调; 公式一其中,表示垂类专家模型的参数,表示损失函数,表示对应领域的训练数据集;S12,通过预训练按照公式二形成用户交互及工具调用的专家模型; 公式二其中,表示用户交互专家模型的参数,表示用户交互相关及工具使用的训练数据集;其中,所述用户交互及工具调用的专家模型用于调用联网工具,并对联网返回的格式化文本进行解析;S2,具体包括:S21,设置门控网络,通过所述门控网络接受向量化的输入,并进行特征解析输出概率分布,所述概率分布表示每个垂类专家模型的置信度;其中,所述门控网络表示为公式三: 公式三其中,和分别为门控网络的权重矩阵和偏置向量,为softmax函数,用于将输出归一化为概率分布;S22,选择所述置信度最高的前k个垂类专家模型进行激活;按照S3,设计并实现一个混合专家模块,包括垂类专家模型、门控网络和融合模块;门控网络负责确定并激活适合处理当前输入的垂类专家模型;激活的垂类专家模型对输入数据进行分析,并输出分析结果;每个专家模型表示为: 然后,融合模块接收所有激活的垂类专家模型的输出,并进行加权整合,形成统一的输出: 其中,为第i个专家模型对应的门控网络输出权重;按照S4,集成框架作为系统的核心,负责接收复杂问题的输入,并将其转换为适合处理的格式;输入数据首先通过向量化层转换为向量表示: 然后通过因果缩放点积注意力网络进行特征提取: 归一化层用于确保不同模块的输出标准化,以便有效集成: S44混合专家模块在此框架中选定垂类专家模型,处理数据,并整合结果: 将注意力层、归一化层和混合专家模块组合成一个复合模块,并将其复制31份;然后,将这32个复合模块按序连接,形成一个深度神经网络;每个复合模块的输出作为下一个复合模块的输入,依次进行数据处理;通过这种方式,模型逐步提取和分析输入数据的高级特征;数学表示如下:令表示复合模块,其中包括注意力层、归一化层和混合专家模块;则复合模块可以表示为: 其中,和分别表示第i个复合模块的输入和输出;将32个复合模块按序连接,形成深度神经网络: 其中,表示整个神经网络的输入,表示整个神经网络的输出,表示第i个复合模块;这种按序连接的方式允许模型逐步提取和分析输入数据的高级特征,从而提高处理复杂问题的能力;最终,线性层将复合模块的输出映射到最终的文本或其他形式的解决方案: 通过将所有层及专家模型集成,形成一个统一的混合专家模型架构。

全文数据:

权利要求:

百度查询: 山东浪潮科学研究院有限公司 一种混合专家模型构建方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。