Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学马艳华获国家专利权

大连理工大学马艳华获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学申请的专利一种自适应强化学习驱动的加速器多目标优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120911543B

龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511449492.7,技术领域涉及:G06N3/092;该发明授权一种自适应强化学习驱动的加速器多目标优化方法是由马艳华;刘宇昊;刘宇昂;李永辉;孙希明设计研发完成,并于2025-10-11向国家知识产权局提交的专利申请。

一种自适应强化学习驱动的加速器多目标优化方法在说明书摘要公布了:一种自适应强化学习驱动的加速器多目标优化方法,属于加速器的优化设计的技术领域。本发明首先分析卷积循环展开因子、量化精度、缓存划分关键设计变量的作用机制,建立系统级状态建模方法,并设计适用于连续动作空间优化的DDPG框架作为配置策略的学习器;同时,在CPU端运行Python脚本以实现轻量级搜索器,对卷积运算的Loop‑3与Loop‑4的分块参数进行实时搜索和分配,从而减轻强化学习代理的计算负担。最终提出一种强化学习驱动的自适应配置方法及配套搜索流程,实现展开尺度、量化精度与分块参数的联合优化。

本发明授权一种自适应强化学习驱动的加速器多目标优化方法在权利要求书中公布了:1.一种自适应强化学习驱动的加速器多目标优化方法,其特征在于,步骤如下: 步骤1:构建强化学习模型的搜索框架; 步骤1.1:定义状态空间:建立能够描述加速器系统的状态向量,状态向量包括卷积神经网络的结构参数、当前FPGA的可用资源以及当前状态下强化学习代理所选择的动作; 状态向量表示为:; 其中,和分别表示卷积核的宽度和高度,与分别表示输入特征图的宽度和高度,与分别表示输入特征图和输出特征图的通道数,与分别表示输出特征图的宽度和高度,与分别表示卷积操作在水平方向与垂直方向的步长,表示卷积核组数或并行计算簇数,用于区分分组卷积或并行规模,表示片上缓存资源数量BRAMURAM资源,表示可用的DSP计算单元数量,表示强化学习代理所选择的第个动作,或; 步骤1.2:定义连续动作空间:设计的连续动作空间包括两类因子,一类是硬件相关的循环展开因子,另一类是卷积神经网络相关的量化精度因子;为保证生成的动作满足FPGA的资源约束,连续动作在输出后需通过离散化函数映射到预设的搜索区间,以获得合法的配置参数; 在每轮训练迭代中,强化学习模型会生成4个动作;4个动作被划分为两组:Action-1和Action-2;其中,Action-1包含三个动作:,、2或3;分别对应循环展开因子,其中表示输入通道方向的循环展开因子,决定输入通道并行度;表示输出特征图水平方向的循环展开因子,决定空间并行度;表示输出通道方向的循环展开因子,决定输出通道并行度;Action-2包含一个动作,;用于选择卷积神经网络的量化精度因子,其中表示卷积权重量化位宽,表示输入特征图的量化位宽;卷积操作采用四层嵌套循环来完成,四层嵌套循环分别命名为:Loop-1、Loop-2、Loop-3、Loop-4;其中,输入图像的水平方向通过嵌套循环Loop-3进行处理;卷积核水平方向通过嵌套循环Loop-1处理;输入通道数与输出通道数分别由两层独立的嵌套循环Loop-2和Loop-4处理;4个动作具体生成过程如下: 对于Action-1中的动作的生成过程为:强化学习代理首先在区间[0,1]内输出一个连续数值,通过离散化函数将该连续数值映射到循环展开因子的整数值;该映射过程会根据各循环展开因子的搜索区间进行缩放,从而保证输出结果满足FPGA的资源约束;公式如下: 对于Action-2中的动作的生成过程为:强化学习代理输出一个连续数,并通过如下公式映射为离散位宽: 其中,和分别表示可选量化位宽的最小值和最大值; 步骤1.3:构建联合奖励函数:根据推理延迟与精度的综合约束,设计联合奖励函数,用于评价每次动作选择的优劣,并引导强化学习模型逐步学习最优配置策略; 在强化学习模型中,每一轮迭代训练中,先使用卷积神经网络量化模型按所选统一量化位宽对卷积神经网络进行量化,然后调用延迟模型得到量化后推理预测延迟,将与目标延迟上限相比;若时,对卷积神经网络量化模型进行一次epoch的微调训练以恢复精度,得到精度指标;若时,跳过微调训练并直接给予惩罚;联合奖励函数定义为分段形式: 其中,为卷积神经网络量化模型的验证集精度,为卷积神经网络量化模型的基准精度,为缩放系数,强化学习模型在每个实验设置下探索E个episode,按上式计算奖励并据此更新策略,直至收敛; 步骤2:定义参数优化流程与硬件映射策略; 步骤2.1:经验回放与输入采样:通过经验回放机制存储强化学习代理与环境交互产生的数据,并在训练过程中随机采样,从而打破时间相关性,保证训练样本的多样性和独立性; 强化学习模型首先将强化学习代理在环境中的交互数据存储在经验回放区,然后在训练过程中随机采样其中的一批数据,从而在训练时接触到更加多样化和独立的样本以提升训练的稳定性和收敛速度;所述的交互数据包括当前状态、当前动作、当前奖励和下一个状态; 步骤2.2:强化学习模型训练:利用随机采样得到的数据对强化学习模型进行训练,强化学习模型根据输入的状态与动作预测Q值,并通过参数更新不断提升策略质量,确保学习过程逐步收敛; 随机采样得到的数据用于强化学习模型的训练,强化学习模型会根据当前状态与当前动作预测一个数值,即Q值;Q值代表在给定状态下采取某个动作后所能获得的长期综合收益,是衡量动作优劣的核心指标;训练过程中,强化学习模型不断参考Q值来更新参数,以保证策略学习的平稳性并避免剧烈震荡; 步骤2.3:策略更新与动作选择:采用贪婪策略在探索与利用之间取得平衡;当满足探索条件时随机选择动作,否则选择当前Q值最高的动作;最终输出的动作即为加速器系统的最优配置方案; 当强化学习模型训练完成后,加速器系统根据贪婪策略进行动作选择;具体操作为:首先,加速器系统生成一个0~1之间的随机数,并与预设阈值进行比较;当时,加速器系统随机选择一个动作,以保证策略的探索性;当时,加速器系统选择当前预测Q值最高的动作,以保证利用已有经验;被选定的动作对应于加速器系统的最优参数配置,包括循环展开因子和量化精度因子; 步骤3:引入轻量级搜索器完成解耦参数优化; 每个卷积神经网络的网络层L都具有独立的分块配置,即Loop-3与Loop-4方向的分块大小,Loop-3与Loop-4方向的分块大小决定了每一网络层的数据划分规模;在CPU端实时运行Python脚本实现轻量级搜索器,用于实时完成循环分块参数的搜索,从而实现无额外时间开销的高效分块优化;在每一网络层L的数据读取过程中,加速器系统将在CPU上运行搜索流程,动态地查找最优的分块配置; 步骤3.1:初步优化路径选择;判断各循环是否已平铺,筛选出符合条件并能进入后续优化的路径,避免因配置不合理导致的资源浪费或带宽瓶颈; 首先检查Loop-1和Loop-2是否未平铺,若未平铺则可能产生计算带来的额外传输开销;然后判断Loop-3和Loop-4是否已平铺,若已平铺则具备进一步优化的可能性,则进入后续的数据流分析与映射策略;若条件不满足,则可能导致计算空闲或带宽瓶颈; 步骤3.2:数据传输优化与资源分配;在满足资源约束的前提下,对片上缓存与DSP计算单元进行多种分配尝试,计算各配置方案的数据传输量,并筛选出最优配置方案,以实现存储与计算的平衡; 在Loop-3和Loop-4已平铺的情况下,首先判断是否满足且;若条件成立,则依次对像素缓冲区和权重缓冲区按照不同比例分配,分别计算不同配置方案下的数据传输量BW1、BW2,进而筛选出最优的配置方案;其中,BW1和BW2分别表示Loop-3与Loop-4作为内循环时的总数据传输量,用于对比不同循环展开顺序下的带宽消耗,从而筛选最优配置方案;代表循环展开因子代表分块配置表示卷积神经网络的尺度规模代表循环展开因子不得超过分块配置,否则硬件并行度大于单块数据量会造成空载和浪费;分块配置不能超过总的卷积神经网络尺度规模,否则失去分块意义;在条件中,表示将特征块传入片上缓存所需的时间,为当前设计下的数据处理耗时;的计算公式如下: 其中,表示片外输入数据的传输频率;W表示片外总线的数据传输位宽;、、分别表示在输入特征图的宽度、输入特征图的高度、输入特征图的通道数的分块尺度;、、分别表示在卷积核的宽度、卷积核的高度、输出特征图的通道数的分块尺度,用于描述一次在片上缓存中可处理的数据块大小; 步骤3.3:策略选择与循环展开:对候选方案进行效率比较,最终确定最优的循环展开顺序,并将结果作为硬件配置输出,实现卷积运算的高效执行与数据传输优化; 选择配置方案中数据传输量最小的,比较BW1和BW2:若BW1大于BW2,则选择Loop-3作为内循环;否则,选择Loop-4作为内循环;Loop-3作为内循环时,按顺序读取每个分块后的输入像素块的权重组,以提升片上像素缓冲区和权重缓冲区的利用率;而选择Loop-4作为内循环时,加速器系统按顺序加载像素至像素缓冲区和权重缓冲区,以支持权重组的并行读取;最终,根据评估结果,输出最优的循环展开顺序及对应的缓存管理策略,实现卷积运算的高效执行与数据传输的最优配置。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。