首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于循环优化技术的通用卷积运算加速器架构的设计与实现方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明公开一种基于循环优化技术的通用卷积运算加速器架构的设计与实现方法,通过循环平铺、循环交换与循环展开等关键技术,设计出一套高效的循环优化策略,进而指导加速器硬件架构的开发。提出一种针对卷积操作的循环优化策略,主要聚焦于循环‑2、循环‑3和循环‑4的展开,以多个并行的乘积‑累加计算单元展开循环‑2和循环‑4,同时通过多个周期展开循环‑3。基于此策略,构建了一种新颖的卷积加速器架构,并根据提出的循环优化策略,定制有效的数据流处理方法,确保了卷积计算的高效执行。综合应用这些策略,本发明不仅期望提高卷积加速器的计算性能,还旨在优化资源使用,从而为FPGA在高效计算领域的应用开辟新路径。

主权项:1.一种基于循环优化技术的通用卷积运算加速器架构的设计与实现方法,所述的卷积运算包括四个层次的循环,分别表示如下:循环-1:forky=0;kyNky;ky++与forkx=0;kxNkx;kx++:这个最内层的双层循环遍历卷积核的每个元素,其中,其中kx与ky表示卷积核在其宽度和高度上的索引,用于遍历卷积核的每个元素,以进行卷积计算;Nky和Nkx分别表示卷积核在y和x维度上的大小;循环-2:forni=0;niNif;ni++:第二层循环遍历输入特征图的深度,其中,ni表示当前操作的输入特征图的通道索引,Nif表示输入特征图的通道数;循环-3:fory=0;yNoy;y+=S与forx=0;xNox;x+=S:这个双层循环遍历输出特征图的每个位置,步长为S;Nox和Noy表示输出特征图在x和y维度上的大小;循环-4:forno=0;noNof;no++:最外层循环遍历输出特征图的深度,其中,no表示当前操作的输出特征图的通道索引,Nof表示输出特征图的通道数;其特征在于,所述的基于循环优化技术的通用卷积运算加速器架构的设计与实现方法的步骤如下:步骤1:利用循环优化技术流程设计卷积神经网络架构,以平衡计算效率、存储需求和数据传输;步骤1.1:通过并行乘累加操作展开循环-2和循环-4,以及在多个周期内展开循环-3,最小化计算延迟,同时优化数据重用和资源消耗;步骤1.2:通过从循环-1依次至循环-4的顺序执行卷积计算;步骤1.3:通过在循环-3和循环-4维度上平铺数据,并根据设计变量传输到片上存储器;步骤2:设计数据流和数据布局,从片外存储器到片上缓存,再到计算单元PE阵列;步骤2.1:将特征数据分块并编码,确保每个数据块通过单次总线传输获取;步骤2.2:定制特征图和卷积核的读取顺序,以实现数据访问的连续性;步骤3:基于异构FPGA设计硬件卷积加速器,以实现利用循环优化技术所设计卷积神经网络架构;步骤3.1:实现DMA模块控制数据从片上缓存到处理单元的访问;步骤3.2:实现乒乓模式下的寄存器组缓存权重;步骤3.3:实现计算单元中的控制逻辑模块协调特征和权重的同步读取;步骤3.4:实现MAC单元在每个周期内对权重和像素数据进行乘法运算,通过加法器树累加得到部分和;步骤3.5:实现累加器单元对MAC单元生成的部分和的累加和缓冲;步骤3.6:实现位移和截断操作模块,在完成累加后处理输出像素。

全文数据:

权利要求:

百度查询: 大连理工大学 基于循环优化技术的通用卷积运算加速器架构的设计与实现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。