北京科技大学胡长军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京科技大学申请的专利面向DCU集群的异构并行亥姆霍兹算子构造方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119356862B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411402685.2,技术领域涉及:G06F9/50;该发明授权面向DCU集群的异构并行亥姆霍兹算子构造方法是由胡长军;武嘉琛;董玲玉;王琦;陈婷婷;陈丹丹设计研发完成,并于2024-10-09向国家知识产权局提交的专利申请。
本面向DCU集群的异构并行亥姆霍兹算子构造方法在说明书摘要公布了:本发明公开了面向DCU集群的异构并行亥姆霍兹算子构造方法,属于计算流体力学技术领域;本发明提出一种面向DCU集群的异构并行亥姆霍兹算子构造方法,主要包括分块矩阵乘访存优化和任务分解算法设计两部分内容,相较于现有设计,本发明不再对主存进行细粒度访问,而是充分利用DCU上的片上共享内存和寄存器,对矩阵进行分块并行预取,显著降低了访存开销;此外,本发明使任务在DCU上合理分配,充分利用DCU计算能力,加速效果随着插值阶数的增大加速比相应增大;最后,解决程序CPU与DCU间、多DCU间的负载均衡问题,提高了程序的可扩展性,使用多DCU可以进一步获得加速比的提升。
本发明授权面向DCU集群的异构并行亥姆霍兹算子构造方法在权利要求书中公布了:1.面向DCU集群的异构并行亥姆霍兹算子构造方法,其特征在于,包括以下内容: (1)分块矩阵乘访存优化:在分块矩阵乘法的基础上,对不同结果子矩阵Ctile计算时,将子矩阵Atile、Btile全部读入共享内存空间中,以此减少全局内存的访问次数,降低访存延迟; 对于子矩阵Atile和Btile的相乘,引入寄存器以进一步提升数据复用的效率;每次使用寄存器时读取子矩阵Atile和Btile的一行和一列,用于计算得到子矩阵Ctile的一部分,实现访存优化; (2)任务分解算法设计: 针对DCU环境下亥姆霍兹算子构造过程中产生的矩阵,所述矩阵的规模的尺寸取决于谱元法的多项式插值阶数; 所述矩阵的形状分为N×N×N、N 2×N×N和N×N×N 2三种情形,具体包括内容如下: 1)针对N×N×N情况:将单个矩阵乘视为一个分块在线程组间进行分配; 2)针对N 2×N×N情况:此情形下结果矩阵C的规模为N 2×N;当N<8时,将矩阵拆分为N个N×N×N规模的矩阵乘,采用情形1)中的方法进行任务分解;当N∈[8,24]时,矩阵行数最小为64,将分块大小调整为64*N,每个线程负载量为N个元素; 3)针对N×N×N 2情况:当N<8时,将矩阵拆分为N个N×N×N规模的矩阵乘,采用情形1)中的方法进行任务分解;当N∈[8,24]时,转变分块大小为N*64,将矩阵划分为多个分块,并将分块中的结果按列分配到线程中;在这种分块形状下,每个子矩阵的数据在原矩阵中的分布不再连续,同一行的64个元素处于连续的内存地址,线程束中的64个线程每一轮读取处于连续内存地址的64个元素。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京科技大学,其通讯地址为:100083 北京市海淀区学院路30号北京科技大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励