买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院大学
摘要:本发明公开一种基于外向螺旋算法的神经网络加速器数据传输方法和装置,包括以下步骤:步骤S1、获取逻辑PE集;步骤S2、将逻辑PE集进行迭代分割;步骤S3、将分割后的逻辑PE集映射到物理PE阵列;步骤S4、将待训练的神经网络初始参数从片外存储器传输到物理PE阵列并加速计算。采用本发明的技术方案,克服现有的神经网络加速器在处理神经网络过程中灵活性不足、PE阵列利用率低、整体数据传输开销过大弊端,可有效应用于大规模工业级神经网络加速器芯片的设计。
主权项:1.一种基于外向螺旋算法的神经网络加速器数据传输方法,其特征在于,包括以下步骤:步骤S1、获取逻辑PE集;步骤S2、将逻辑PE集进行迭代分割;步骤S3、将分割后的逻辑PE集映射到物理PE阵列;步骤S4、将待训练的神经网络初始参数从片外存储器传输到物理PE阵列并加速计算;步骤S1中,基于神经网络CONV层和神经网络加速器PE阵列的初始参数生成逻辑PE集;具体包括:S11、分析待处理神经网络CONV层和神经网络加速器PE阵列的结构,得到神经网络CONV层的输入特征映射长宽Li、滤波器权重长宽Lf和步长Ls,以及神经网络加速器PE阵列的长Lpa和宽Wpa;S12、根据前一步得到的神经网络CONV层初始参数生成逻辑PE集的长Lps和宽Wps,并得到完整的初始逻辑PE集;步骤S2中,基于最大化PE阵列利用率的完整列映射将逻辑PE集进行迭代分割;具体包括:S21、分析逻辑PE集大小和物理PE阵列大小;将神经网络加速器PE阵列的长和宽相乘得到物理PE阵列大小,将逻辑PE集的长和宽相乘得到逻辑PE集大小;比较逻辑PE集和物理PE阵列大小,如果逻辑PE集大小Sps大于等于物理PE阵列大小Spa,则说明逻辑PE集尚未实现完全分割,进入S22;否则逻辑PE集已经分割完毕,进入步骤S3;S22、基于最大化PE阵列利用率的完整列映射将逻辑PE集进行分割,将大小为Wps×Lps的逻辑PE集根据完整映射和部分映射进行分割;完整映射由完整列和剩余PE单元组成,完整列数量符号表示向下取整,剩余PE单元数量Nrp=Spa%Wps,符号%表示取模操作;部分映射由剩余完整列组成,剩余完整列数量如果剩余完整列数量Nrc=0,得到Nm次完整映射的对象符号表示向上取整;如果剩余完整列数量Nrc>0,得到Nm次完整映射和1次部分映射的对象;每次完整映射将Nc个逻辑PE集的PE列和Nrp个逻辑PE单元映射到物理PE阵列上,此时PE阵列的利用率为100%;部分映射将Nrc个逻辑PE集的PE列映射到物理PE阵列上,此时PE阵列的利用率为Nrc×WpsSpa;S23、更新逻辑PE集参数并进行迭代分割,如果剩余PE单元数量Nrp=0,则结束逻辑PE集的分割,进入步骤S3;如果剩余PE单元数量Nrp>0,则根据上述分割结果更新逻辑PE集参数,其中逻辑PE集长度Lps=Nm,逻辑PE集宽度Wps=Wps—Nrp,并返回S21对更新后的逻辑PE集继续分割,直至Nrp=0;步骤S3中,基于离散二维网格的外向螺旋算法将分割后的逻辑PE集映射到物理PE阵列;具体包括:步骤S31、确定螺旋中心和螺旋方向,将物理PE阵列视为离散二维网格,根据物理PE阵列的长和宽确定螺旋中心坐标x,y,其中,如果则初始螺旋方向朝下;否则初始螺旋方向朝右;步骤S32、将逻辑PE集宽度Wps设置为螺旋步长S,按逆时针方向从物理PE阵列的螺旋中心出发,将其分割为数个长度为S的条带直至剩余PE单元数量小于S;步骤S33、每个条带按照生成顺序依次添加序号Si,该序号对应逻辑PE集的完整列、部分逻辑PE单元和剩余完整列;i=1,2,…,Nc。
全文数据:
权利要求:
百度查询: 中国科学院大学 基于外向螺旋算法的神经网络加速器数据传输方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。