买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:众数(厦门)信息科技有限公司;厦门众数寻知人工智能有限公司
摘要:本发明公开了一种对于文本嵌入模型的优化方法,包括以下步骤:S1、在文本嵌入模型中,将K参数矩阵和V参数矩阵联合为一个大KV矩阵,再采用低秩矩阵分解将大KV矩阵分解替换为两个维度更低的矩阵;S2、在文本嵌入模型中,将Q参数矩阵分解替换为两个维度更低的矩阵;S3、采用稀疏混合专家模型,使用由多个专家模块与一个专家选择门结合,以最优的选择嵌入维度输出;该方法在原通用Embedding模型的基础结构上,针对编码层中的注意力主要计算模块进行优化,以在保留模型最大性能的前提下提升推理效率;针对中间计算模块做出改进,扩充模型的学习维度、增强学习能力,进一步提升输出嵌入对离散数据的表达能力。
主权项:1.一种对于文本嵌入模型的优化方法,其特征在于,包括以下步骤:S1、在文本嵌入模型中,将K参数矩阵和V参数矩阵联合为一个大KV矩阵,再采用低秩矩阵分解将大KV矩阵分解替换为两个维度更低的矩阵;步骤S1的具体过程为:S11、将原本用于分别计算K参数和V参数的K参数矩阵和V参数矩阵联合为一个大KV矩阵,并将大KV矩阵分解为两个维度更低的矩阵和矩阵,计算公式为:,,,其中,K参数矩阵为,,表示维度大小为行列的实数矩阵的集合;V参数矩阵为,,表示维度大小为行列的实数矩阵的集合;大KV矩阵为,,表示维度大小为行列的实数矩阵的集合;表示维度大小为行列的实数矩阵的集合;表示维度大小为行列的实数矩阵的集合;表示合并后的大KV矩阵的原始列维度大小;表示降维后的、的对应中间维度大小;S12、将矩阵和矩阵分别替换原本的K参数矩阵和V参数矩阵,用于分别计算K参数和V参数,计算公式为:,,,其中,表示token的隐藏状态特征向量,表示维度大小为的实数向量集合;表示token的被合并的key和value特征向量,表示维度大小为的实数向量集合;表示token的key特征向量,表示维度大小为的实数向量集合;表示token的value特征向量,表示维度大小为的实数向量集合;S2、在文本嵌入模型中,将Q参数矩阵分解替换为两个维度更低的矩阵;步骤S2的具体过程为:S21、将Q参数矩阵分解为两个维度更低的矩阵和矩阵,计算公式为:,,,,其中,Q参数矩阵为,,表示维度大小为行列的实数矩阵的集合;表示维度大小为行列的实数矩阵的集合;表示维度大小为行列的实数矩阵的集合;表示的原始列维度大小;表示降维后的、的对应中间维度大小;S22、将矩阵和替换原本的Q参数矩阵,用于计算Q参数,计算公式为:,,其中,表示token的query特征向量,表示维度大小为的实数向量集合;S3、采用稀疏混合专家模型,使用由多个专家模块与一个专家选择门结合,以最优的选择嵌入维度输出;所述Q参数矩阵的降维程度低于大KV矩阵,用于不影响注意力输出的表达效果和丢失过多注意力信息,即。
全文数据:
权利要求:
百度查询: 众数(厦门)信息科技有限公司 厦门众数寻知人工智能有限公司 一种对于文本嵌入模型的优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。