首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种GEMM运算加速器及基于GoogLeNet的图像处理加速方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明属于GEMM运算加速领域,涉及一种GEMM运算加速器,包括主电路及与主电路相连接的从电路,其中:主电路针对输入的一批用于GEMM运算的规模不等的矩阵,先判断矩阵的行数和列数是否小于等于1024:若小于等于1024,则对矩阵进行动态分片,然后从电路对各个矩阵片进行GEMM运算,主电路合并从电路GEMM运算结果后返回调用者;若矩阵的行数或列数大于1024,则使用循环调用平台提供的通用矩阵乘法API进行求解的传统方法得到运算结果后返回调用者。本发明的GEMM运算加速器利用动态分片,同时兼顾了线程级并行和指令级并行。本发明还提供一种基于GoogLeNet的图像处理加速方法。

主权项:1.一种GEMM运算加速器,其特征在于,包括主电路及与主电路相连接的从电路,其中:主电路针对输入的一批用于GEMM运算的规模不等的矩阵,先判断矩阵的行数和列数是否小于等于1024:若小于等于1024,则对矩阵进行动态分片,然后从电路对各个矩阵片进行GEMM运算,主电路合并从电路GEMM运算结果后返回调用者;若矩阵的行数或列数大于1024,则使用循环调用平台提供的通用矩阵乘法API进行求解的传统方法得到运算结果后返回调用者;动态分片时采用一种平衡方法同时兼顾线程级并行和指令级并行,平衡方法包括:①、计算最优单个workgroup的workitem数量NWI: 其中:NMax_WG是单个workgroup最多所能包含的workitem的数量;NSIMD是单个CU所包含的SIMD的数量;将NWI与预先制定好的多个分片策略中已有的单个workgroup的workitem数量参数进行比较,选择与NWI最接近的值:min{absNWI-TWI_i}TWI_i为预先制定好的多个分片策略中单个workgroup所包含的workitem数量;②、根据矩阵片大小小于输入矩阵大小的原则,筛选出可行分片策略;对可行分片策略分别进行计算得到对应的workgroup数量NWG_i: TM_i和TN_i是第i个分片策略的行数和列数,Mj、Nj为第j个GEMM的矩阵C的行数和列数;③、选择与CU数的整数倍最接近的分片策略作为最优分片策略:min{NWG_imodNCU}NCU为总的CU数量。

全文数据:

权利要求:

百度查询: 华南理工大学 一种GEMM运算加速器及基于GoogLeNet的图像处理加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。