首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种稀疏矩阵乘法的NPU加速方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学

摘要:本发明提出一种稀疏矩阵乘法的NPU加速方法,属于稀疏矩阵乘法加速技术领域。本发明基于CPU+NPU的异构计算机系统架构,提出稀疏矩阵“块”压缩格式CSB和基于CSB的矩阵乘法方法。CSB可将稀疏矩阵进行列排序将非零数据集中存放,基于CSB的矩阵乘法仅对稀疏矩阵非零数据块进行运算,再通过列重排获得结果。本发明可以充分利用NPU内部矩阵单元的算力,解决经典稀疏矩阵存储格式及乘法加速方法不适合NPU处理器的问题。本发明有效提高基于NPU的智能异构计算系统稀疏矩阵乘法计算速度,以及对基于NPU的卷积神经网络模型推理计算效率起到积极作用。

主权项:1.一种稀疏矩阵乘法的NPU加速方法,其特征在于,由CPU模块和NPU模块组成异构计算系统,NPU模块作为协处理器与CPU模块相连,CPU模块用于通用计算和管理,NPU模块用于神经网络卷积层加速计算;NPU模块包括矩阵单元和数据搬移单元;数据搬移单元与矩阵单元封装在一个容器内;所述矩阵单元至少有一个;数据搬移单元用于数据的搬移;矩阵单元用于矩阵乘法计算;矩阵单元进行矩阵乘法计算的过程是:平铺后输入矩阵为,平铺后卷积核矩阵,若卷积核矩阵是稀疏矩阵,则将卷积核矩阵转换为稀疏矩阵“块”压缩格式CSB存储,基于CSB的分块矩阵乘法计算,若卷积核矩阵不是稀疏矩阵直接进行矩阵乘法计算;将卷积核矩阵转换为CSB格式存储的过程包括矩阵列重排和矩阵分块;矩阵列重排的过程为:解析卷积核矩阵,标识每列中非零元素中最大行号和最小行号;对卷积核矩阵的所有列,根据非零元素中最大行号由小到大进行重排,得到第一卷积核矩阵,同时保存第一卷积核矩阵中每一列对应卷积核矩阵的列号,保持到数组中;将第一卷积核矩阵按列分为分区,把每个分区行数大于分区非零元素最大行号的区域设为全零分块;解析第一卷积核矩阵,标识每列中非零元素中最小行号;对第一卷积核矩阵的每个分区中所有列,根据非零元素中最小行号由小到大进行重排,得到第二卷积核矩阵,每个分区记作,其中左、右边列号分别记作、,分区非零元素最大行号,同时保存第二卷积核矩阵中每一列对应的的列号,更新数组;根据矩阵单元的数量将第一卷积核矩阵按列分为分区,每个分区包含的列数为矩阵单元计算矩阵列规格的整数倍;矩阵分块的过程为:将分区中大小高于下限的全零分块挖掉不再参与后续的存储与计算,把矩阵分区分成多个包含非零元素的长方形矩阵分块,大小高于下限的全零分块通过查找到的列数为m且行数不低于m的全零分块,具体处理方法为:①为每个分区设置最小宽边大小与最小高边大小两个超参数,其中与均为的整数倍;②进行分区处理,设当前右侧列为;③记录-列的非零元素最小行号,即;④当时,将0至行,-至列的区域设置为全零分块;当时,分区不设置全零分块,执行步骤⑥;⑤当,更新,执行③,否则,执行步骤⑥;⑥回到步骤③,进入下一分区,直到所有分区遍历完成;⑦在分区中,去掉全零分块后重新计算矩阵有效数据边界,将分区分解为多个矩阵分块。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种稀疏矩阵乘法的NPU加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。