首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于列重构卷积的点云目标检测网络硬件加速方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明属于FPGA硬件加速器设计领域,尤其涉及一种基于列重构卷积的点云目标检测网络硬件加速方法。使用量化的权重和输入特征图,配置各个模块的参数,使同一个卷积加速器适用于网络卷积层的不同层,完成整个网络的卷积计算。使用独特的分块计算方式来减少片上缓存压力使其能达到更高的输出并行度,以提高算力。将特征图按列分块,并在特征图缓存模块重构为数个大小为原特征图高度×宽度的子特征图,在子特征图计算过程中,通过频繁切换权重的方法减少滑窗计算时存在的无效时间,通过乒乓操作减少滑窗准备的时间。设计特征图缓存策略来减少形成子特征图时数据的重复传输,使权重能在特征图数据传输的间隔进行传输,以提高算力。

主权项:1.一种基于列重构卷积的点云目标检测网络硬件加速方法,其特征在于,所对应加速器设计在层次上分为指令解码单元和卷积计算单元;卷积计算单元包含卷积模块、累加模块、截位模块和激活函数;指令解码单元接收PS端通过GP接口传输过来的数据,根据解析寄存器内的数据实现对卷积、累加和截位模块的控制;将输入特征图按列进行分割,并重构为多个高度不变,宽度为F的子特征图,其中F为卷积核宽度;包含特征图数据及对应权重的数据由PS端通过HP接口传输至PL端,通过卷积模块、累加模块、截位模块和激活函数后,完成一层卷积的分块后子特征图的卷积计算,并将结果传回PS端;该层所有子特征图卷积全部结束后,在PS端将得到的结果进行选择,作为下一层的输入传回PL端,重复上述操作直至所有卷积层计算完毕,PS端对卷积结果进行后续处理;加速方法包括步骤如下:步骤一、卷积模块计算:步骤1.1:在将特征图输入至PL端前,按列将输入特征图分块,在包含输入并行度的前提下,将其以列为单位传入PL端,并在通道方向优先完成每个子输入特征图的传输,存入特征图缓存模块,在特征图缓存模块中构成完整的子特征图;步骤1.2:特征图缓存模块将数据传输至特征图窗口时采用乒乓操作,特征图缓存模块由大小两块BRAM构成,分别为inbufl和inbufs;特征图窗口模块则由大小相同的两部分构成,分别为datawd1和datawd2;输入特征图数据按列存入特征图缓存模块,并按行传入特征图窗口模块;padding操作在将数据从特征图缓存模块输入到特征图窗口时实现;在inbufl向特征图窗口datawd1传输数据,且快完成该输入并行度的子特征图数据传输时,inbufs开始向特征图窗口datawd2传输数据;并在inbufl传输完成前,完成窗口datawd2的准备;inbufl完成传输后立即启用窗口datawd2,且之后的数据也传输至窗口datawd2,以此类推进行传输交换;步骤1.3:将得到一层卷积所有输出通道的数据时,输入特征图完整传输的次数称为轮数;为节省带宽,将权重和特征图使用同一个总线通道分时传输;在一次子特征图计算过程中,已经完成了特征图缓存数据的传输,此时特征图缓存模块正向特征图窗口传输数据,能够不依靠外部数据就能完成计算;利用这段时间将下一轮所需的权重传入权重缓冲模块;每个子特征图计算过程中都会有上述时间,在一轮的各个子特征图计算过程中,将下一轮的权重逐步传输至权重缓冲模块,并存入权重缓存模块,直至下一轮的权重全部存储在权重缓存模块,即可在下一轮计算开始时省去权重加载时间;步骤1.4:在步长为S的卷积计算中,一次窗口有效计算能生成真输出并行度TParlO个输出通道的像素中间值数据,在换行无效期间不使用无效数据,继续使用上一周期的有效特征图窗口数据,这时切换一组权重,就能再生成TParlO个输出通道的像素中间值数据;在第F-1个无效时刻数据到达时,关闭N-F个周期的特征图输入,再下个周期数据到达后锁存有效窗口数据,期间每个周期均切换不同的权重,总共获得N×TParlO个输出通道的像素中间值数据,将这N×TParlO个输出通道定义为伪输出并行度FParlO;其中,N为大于F×S,且能被该层卷积输入通道数整除的最小值步骤1.5:将特征图窗口模块中大小为F×FH×数据位宽Width×输入并行度ParlI的特征图数据和卷积缓存中每次选出的大小为F×FH×Width×ParlI×真输出并行度TparlO的权重数据送入乘法器阵列,完成乘法计算;其中,FH为卷积核高度;步骤1.6:将乘法结果送入加法树,求和后作为中间值传输至累加模块,加法树采用流水线结构,每级三个输入一个输出;步骤二、累加模块计算:步骤2.1:将加法树得到的卷积中间值数据存入累加模块;若输入并行度小于该层总通道数,则根据输入并行度继续进行剩余通道数据的传输和计算,再次进行卷积,并将加法树结果与上次卷积结果相加,直至完成所有输入通道特征图的卷积计算,在最后一次累加时加上各个通道对应的偏置量,完成计算;输出之前通过选址进行重新排序;选址期间需要保持数据不变,因此使用乒乓操作,一部分用来进行累加操作,另一部分通过重新选址输出至截位模块;步骤三、截位模块计算:将累加模块的结果输出至截位模块,累加模块实现量化计算中的公式:系数M×卷积结果P移位量n,将结果维持在与输入相同的量化后数据位宽,其中M和n都是事先训练好的参数,由PS端通过GP口写入PL端寄存器,包含在指令内;步骤四、激活函数计算:将截位模块的输出送入激活函数模块,激活函数可用查表法实现;最后将结果传回PS端。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于列重构卷积的点云目标检测网络硬件加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。