一种基于混合专家和参数重用的模型构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明公开了一种基于混合专家和参数重用的模型构建方法，包括MoE模块构建、推理时专家合并、立即块重用三个部分。本发明能够实现更好的精度、体积、速度权衡的transformer架构模型。

主权项：1.一种基于混合专家和参数重用的模型构建方法，其特征在于，包括如下步骤：步骤1：MoE模块构建；将原本密集计算的FFN模块改为稀疏的MoE模块；利用FFN的两层线性层构建两层专家网络，第一层专家的输出经过相加后经过激活层；在推理时动态选择需要的专家，动态选择专家如下所示：；其中，m代表所选专家的数量，j代表当前专家，t代表超参数阈值，代表选择当前专家的概率；将路由网络输出的选择每个专家的概率从大到小排序之后，依次累加，当累加值大于等于设定的阈值时，已累加概率的专家即为本次推理所选专家；步骤2：推理时专家合并；在推理时数据通过每一个网络块的路由部分得出所用专家之后，将各个选择到的专家的参数利用结构重参数化的方法合并，得到推理时的参数；具体合并方法如下所示：；式中，代表当前专家的权重，为当前的三维输入，B为batchsize、N为长度、C为维度；通过将多个专家的权重合并，最终得到无分支的线性层作为合并后的网络；再将数据输入合并后的网络，假设该次推理选择了n个专家，那么经过专家的参数合并，计算量就会减少为原来的1；步骤3：网络块重用；将每一个网络块重复两次，在不增加参数量的前提下将网络深度提升两倍；硬件的缓存中每加载一个模块，能够计算两次。

全文数据：

权利要求：

百度查询：西北工业大学一种基于混合专家和参数重用的模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：线条体固定部件、线条体增设用固定部件以及线条体安装方法

下一篇：一种双头机床的半导体芯片夹取装置

相关技术

线条体固定部件、线条体增设用固定部件以及线条体安装方法

一种双头机床的半导体芯片夹取装置

无线信道模型的更新方法、装置、设备及存储介质

一种可对球阀均匀喷漆的球阀喷漆装置及喷漆工艺

集中供暖设备

一种基于自适应特征选择的单样本部件分割方法

一种基于FIFO处理CAN通信消息的优化系统及方法

一种桩基注浆用浆料搅拌设备

谐振式电源供应器的同步整流控制方法

一种用于汽车变速箱悬架的压铸模具

一种汽轮机启动疏水再利用系统及其方法

带有非自驱动吸入阀的往复式压缩机

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于混合专家和参数重用的模型构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务