买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公布了一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到序列数据和相应的查询矩阵Q,键矩阵K与值矩阵V;对查询矩阵Q与键矩阵K计算低比特分数矩阵;进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;再使用输入到动态稀疏注意力机制模型的矩阵Q、K、V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速。
主权项:1.一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到相应的序列数据,再将序列数据进行映射处理,得到对应的查询向量、键向量与值向量,进一步得到查询矩阵Q,键矩阵K与值矩阵V,作为动态稀疏注意力机制模型的输入;对查询矩阵Q与键矩阵K进行低比特量化并计算出低比特分数矩阵;通过对分数矩阵进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;接着对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;最后,使用输入到动态稀疏注意力机制模型的查询矩阵Q、键矩阵K、值矩阵V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速;包括以下步骤:1对应用数据进行序列化预处理,得到相应序列数据对应的查询向量、键向量与值向量,并进一步得到输入注意力机制的查询矩阵Q与键矩阵K;2计算低比特的分数矩阵;包括:2.1对查询矩阵Q与键矩阵K进行低比特量化,得到量化后矩阵QQ与QK;所述低比特量化具体是采用对称线性量化方式,将输入数据乘以比例因子,再四舍五入到整数,得到量化后查询矩阵QQ与量化后键矩阵QK;2.2将QQ矩阵与QK矩阵相乘,得到矩阵乘法结果;2.3对矩阵乘法结果使用逐行softmax操作进行归一化,即得到低比特分数矩阵;3设定阈值T1,对低比特分数矩阵进行二值化,得到注意力掩模;具体是将低比特分数矩阵与设定的阈值T1进行逐元素比较,将比较结果保存为一个与低比特分数矩阵相同大小的注意力掩模;所述注意力掩模由0与1组成;掩模中的元素的值为1,表示低比特分数矩阵中对应元素不小于阈值;掩模中的元素的值为0则表示低比特分数矩阵中对应元素小于阈值,该阈值通常设置在0.002到0.08之间;4对注意力掩模进行分块打包,得到打包后的结构化掩模块;4.1设定宽度参数W,将注意力掩模在列维度上划分为宽度为W的多个子矩阵;所述参数W的取值可设置为硬件计算单元阵列的宽度;4.2对于每个子矩阵,删除所有全零的行;4.3设定阈值T2,将所有非零元素数量超过阈值T2的行分割为多个行,使得子矩阵中每一行中的非零元素数量不超过T2;4.4设定高度参数H,将每个子矩阵在行维度上划分为多个高度为H的结构化掩模块;所述高度参数H的取值可设置为硬件计算单元阵列的高度,使得得到的每一个结构化掩模块的大小与计算单元阵列的大小一致,从而可以被映射到计算单元阵列的一次执行;5使用打包后的结构化掩模块计算稀疏注意力机制;包括:5.1利用矩阵Q、矩阵K和结构化掩模块,通过执行样本化稠密矩阵乘法SDDMM,得到稀疏分数矩阵;5.2对稀疏分数矩阵通过使用逐行Softmax操作进行归一化;5.3使用归一化之后的稀疏分数矩阵与值矩阵V作为输入,通过执行稀疏矩阵乘法SpMM,得到输出矩阵,即得到最终结果;通过上述步骤,即可在硬件上高效实现稀疏注意力机制的数据处理加速。
全文数据:
权利要求:
百度查询: 北京大学 可硬件实现的动态稀疏注意力机制的数据处理加速方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。