Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于脉动阵列的LSTM加速器及加速方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京航空航天大学

摘要:本发明公开了一种基于脉动阵列的LSTM加速器,加速器包括向量‑矩阵转化模块、脉动阵列、Element‑wise模块、控制模块以及存储模块;向量‑矩阵转化模块负责将输入向量转化为矩阵形式,并映射至脉动阵列的输入数据流上;脉动阵列负责LSTM门控单元的稀疏权重矩阵与输入矩阵的乘法运算,由多个PE模块组成,通过输入数据流和权重数据流在PE模块间流动,高度复用数据,有效避免数据频繁读取。本发明还公开了一种基于脉动阵列的LSTM加速器的加速方法,本发明通过优化数据结构,将原有的矩阵与向量乘法运算转化为矩阵与矩阵乘法运算,并通过脉动阵列对稀疏权重矩阵与输入矩阵的乘法运算进行处理,实现了PE模块的高并行度和高吞吐率,从而提升了加速器的运算性能。

主权项:1.一种基于脉动阵列的LSTM加速器的加速方法,其特征在于,LSTM加速器包括权重缓存模块、向量-矩阵转化模块、K个脉动阵列和Element-wise模块,其中,脉动阵列包括M×N个处理单元PE模块,M、N均为大于1的整数,脉动阵列的数量与LSTM模型中的LSTM门控单元的数量是相同的;其中,向量-矩阵转化模块,用于将输入向量转化为矩阵形式,得到输入矩阵并将其输出至脉动阵列;脉动阵列,用于接收来自权重缓存模块的权重矩阵、向量-矩阵转化模块的输入矩阵,权重矩阵和输入矩阵在PE模块间流动,权重矩阵经过剪枝后得到稀疏权重矩阵,在脉动阵列中完成LSTM门控单元的稀疏权重矩阵与输入矩阵的乘法运算,输出向量至Element-wise模块;Element-wise模块,用于接收来自脉动阵列输出的向量,计算当前时间步的细胞状态值和隐藏值;脉动阵列的计算方法如下:步骤1、K个脉动阵列对应K个LSTM门控单元,脉动阵列用于将稀疏权重矩阵和向量-矩阵转化模块输出的输入矩阵进行对应的乘法运算;步骤2、PE模块接收权重缓存模块的稀疏权重矩阵中的参数和输入矩阵中的参数、或相邻PE模块的稀疏权重矩阵中的参数和输入矩阵中的参数,由PE模块内部的SMAC模块进行解码和乘累加运算;步骤3、PE模块完成当前周期的运算后,保留当前运算的部分和结果,并将当前的稀疏权重矩阵的参数和输入矩阵中的参数传递给相邻的PE模块,供相邻的PE模块进行解码和乘累加运算;步骤4、相邻PE模块接收到稀疏权重矩阵的参数和输入矩阵中的参数后重复上述步骤2和步骤3、直至脉动阵列完成LSTM门控单元的稀疏权重矩阵与输入矩阵的乘法运算;并且将PE模块中的部分和结果传递给Element-wise模块计算当前细胞状态值和隐藏值,PE模块中的部分和结果是指脉动阵列的输出向量;首先采用分块循环矩阵压缩算法对LSTM网络中的原始权重矩阵进行压缩,将权重矩阵进行分块,并采用循环矩阵替代原始权重矩阵,通过重训练弥补精度损失,循环矩阵采用首行向量表示,将每个分块循环矩阵的首行向量进行重排并存储;其次采用块平衡剪枝算法对存储的首行向量进行剪枝,每个行向量都保留相同的稀疏度,并对压缩剪枝后的稀疏权重矩阵中的非零权重进行编码,将索引值和参数值组合并进行存储,高位存储索引值,低位存储参数值,取高位索引值解码输入向量中对应的输入数据值;最后是采用指数量化将压缩剪枝后的稀疏权重矩阵中的非零权重量化为2的幂的形式,在后续硬件加速过程中采用移位运算代替乘法运算。

全文数据:

权利要求:

百度查询: 南京航空航天大学 一种基于脉动阵列的LSTM加速器及加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。