一种基于SIMD指令实现快速求解正数算术平方根的方法

导航：龙图腾网> 最新专利技术> 一种基于SIMD指令实现快速求解正数算术平方根的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京君正集成电路股份有限公司

摘要：本发明提供一种基于SIMD指令实现快速求解正数算术平方根的方法，包括：S1.加载数据，为：Register1＝Ingenic_simd512_loadfloatdata；S2.将Register1里的数据使用SIMD指令求出平方根倒数，表示为Register2＝Ingenic_simd512_rsqrtRegister1；这里Ingenic_simd512_rsqrt为求出平方根倒数的方法名，其表示能够涵盖求解平方根倒数的各步骤，结果保存在寄存器Register2中；S3.将S2中获得的平方根倒数乘以输入数据得到输入数据的算术平方根，表示为Register3＝Ingenic_simd512_float_mulRegister1，Register2；S4.将计算结果从寄存器中保存到内存中。本方法使用SIMD指令实现快速求解正数算术平方根的方法，可以提高缓存利用率，一次性加载多个数据，尽可能的利用缓存空间，减少硬盘或内存与缓存之间数据交互的次数，从而大大提高了运算速度，占用少量资源，在硬件资源有限的情况下也能高效运行。

主权项：1.一种基于SIMD指令实现快速求解正数算术平方根的方法，其特征在于，所述方法包括如下步骤：S1.加载数据，是以32bit的整数倍加载，一个寄存器最多能够加载512bit数据；单精度浮点数为32bit，一个寄存器能够加载16个浮点数，所以一条SIMD指令能够同时对16个浮点数进行计算；设Register1＝Ingenic_simd512_loadfloatdata；其中，Ingenic_simd512_load为加载数据的SIMD指令；floatdata为输入的16个32bit单精度浮点数，Register1为寄存器1，将输入数据保存在寄存器Register1里；S2.将Register1里的数据使用SIMD指令求出平方根倒数，设Register2＝Ingenic_simd512_rsqrtRegister1这里Ingenic_simd512_rsqrt为求出平方根倒数的方法名，其表示能够涵盖求解平方根倒数的各步骤，结果保存在寄存器Register2中；所述Ingenic_simd512_rsqrt进一步包括：S2.1.将Register1里的数据进行直接逻辑右移1位操作，使用一条逻辑右移1位的SIMD指令，表示为：Register2＝Ingenic_simd512_logical_shift_right_1_bitRegister1其中，Register1为操作数，Register1里的16个32bit单精度浮点数被同时执行逻辑右移1位操作，结果保存在表示为Register2的寄存器2里；S2.2.使用32bit的十六进制魔术数字0x5f3759df减去步骤S2.1的结果，得到平方根倒数的首次近似值，使用一条加载立即数的SIMD指令，表示为：Register3＝Ingenic_simd512_load_immediate0x5f3759df，所述魔术数字0x5f3759df是整数，能够使用加载立即数指令；所述寄存器3Register3能够重复使用；将0x5f3759df加载到Register3里，该指令能够将一个32bit数据复制成16个32bit数据加载到一个512bit的寄存器里；使用一条整数减法的SIMD指令，表示为：Register2＝Ingenic_simd512_int_subRegister3,Register2，将Register3里的16个32bit数据与步骤S2.1的结果相减，该指令能够同时完成16个减法操作，该步骤相减的两个操作数都为整数，所以使用整数相减指令，相减后的结果仍然保存在Register2里；S2.3.使用一条浮点数相乘的SIMD指令，即Register1里的16个浮点数与Register3里的16个浮点数对应相乘，表示为：Register4＝Ingenic_simd512_float_mulRegister1，Register3将Register1里的数据与浮点数0.5相乘，需要先将0.5加载在Register3里，由于0.5是浮点数，不能使用加载立即数指令，只能使用普通加载指令，表示为：Register3＝Ingenic_simd512_load0.5，加载完一个0.5后，使用一条repeat指令，所述repeat指令是一条复制数据的指令，表示为：Register3＝Ingenic_simd512_repeatRegister3将一个32位浮点数0.5复制成16个32bit的浮点数保存在Register3里；此时相乘指令的两个操作数都为浮点数，所以使用浮点数相乘指令，结果保存在Register4里；再将32bit浮点数1.5以相同的方法加载到Register5里，表示为：Register5＝Ingenic_simd512_load1.5Register5＝Ingenic_simd512_repeatRegister5；该步骤得到的Register4和Register5结果为下面进行牛顿迭代法做准备；S2.4.进行第一次牛顿迭代法：使用浮点数相乘的SIMD指令：Ingenic_simd512_float_mul指令将S2.2的Register2里的数据与Register2里的数据相乘得到平方的结果，将结果保存在Register6里，再与Register4里的数据相乘，结果仍然保存在Register6里，再使用浮点数相减指令，即Register5里的16个浮点数减去Register6里对应的16个浮点数，表示为：Ingenic_simd512_float_sub指令，将Register5数据减去Register6数据，该指令两个操作数都是浮点数，所以使用浮点相减指令，结果保存在Register6里，再将Register6数据与Register2数据相乘，结果保存在Register2里；这里的寄存器存储的都是16个32bit的单精度浮点数，每条指令都是同时操作16个浮点数；表示为：Register6＝Ingenic_simd512_float_mulRegister2，Register2；Register6＝Ingenic_simd512_float_mulRegister4，Register6；Register6＝Ingenic_simd512_float_subRegister5,Register6；Register2＝Ingenic_simd512_float_mulRegister2，Register6；S2.5.为了达到实际应用精度的要求，需要根据需要进行n次牛顿迭代，即将步骤S2.4再重复进行n-1次；S3.将步骤S2中获得的平方根倒数乘以输入数据得到输入数据的算术平方根，设Register3＝Ingenic_simd512_float_mulRegister1，Register2其中，Ingenic_simd512_float_mul为浮点相乘的SIMD指令，将寄存器Register2里的数据与寄存器Register1里的数据相乘，相乘后的结果保存在寄存器Register3里；S4.将计算结果从寄存器中保存到内存中。

全文数据：

权利要求：

百度查询：北京君正集成电路股份有限公司一种基于SIMD指令实现快速求解正数算术平方根的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于搅拌摩擦焊冷板的CNC定位夹紧工装

下一篇：一种智能型多功能机械伤害体验装置

相关技术

一种用于搅拌摩擦焊冷板的CNC定位夹紧工装

一种智能型多功能机械伤害体验装置

一种中医针灸辅助装置

一种外卖无接触配送方法、装置、设备及存储介质

一种种子栽培种植开沟装置

一种切菜器

振镜和激光雷达

一种安装稳固的连接件

用于装置气溶胶生成系统的传感器

一种基于物联网的燃气罐阀门控制系统

基于AI的PCB或半导体多工序生产设备组合优化方法

水封逆止阀及其使用方法

求解相关技术

一种索力影响矩阵求解方法_中铁大桥勘测设计院集团有限公司_202410722904.9

一种容量约束的车辆路径求解方法_北京航空航天大学_202410660311.4

基于互逆映射求解电力网络方程低电压解的方法及系统_上海交通大学_202111388166.1

一种求解海岛综合能源系统容量规划问题的方法_江苏海洋大学_202410487571.6

一种基于神经网络的玻尔兹曼输运模型求解方法_湖南大学_202410759845.2

一种电力电子变换器开关暂态多重分段线性建模求解方法_西北工业大学_202411109488.1

一种求解复数N次方根的装置和方法_南京宁麒智能计算芯片研究院有限公司_202111135773.7

基于排序的双种群进化算法求解柔性作业车间调度问题的方法_哈尔滨理工大学_202410607512.8

薄基片应力状态求解方法及其装置、仪器、终端、介质_合肥工业大学_202410670178.0

一种抗噪复值递归神经网络求解机械臂运动轨迹的方法_华南理工大学_202310232232.9

正数相关技术

激光加工装置、激光加工方法以及修正数据生成方法_松下知识产权经营株式会社_202010287867.5

一种基于SIMD指令实现快速求解正数算术平方根的方法_北京君正集成电路股份有限公司_202310182664.3

校正数据内置测定器_横河电机株式会社_202311806827.7

LED显示屏的新型逐点校正数据采集方法_东莞阿尔泰显示技术有限公司_202310100086.4

LED显示屏的逐点校正数据采集方法_东莞阿尔泰显示技术有限公司_202310100087.9

生成用于显示装置的校正数据的方法_三星显示有限公司_202010016881.1

用于存储器阵列数据结构正数运算的设备、系统及方法_美光科技公司_202410556146.8

宽带相控阵通道校正数据处理方法、装置、设备及介质_中国电子科技集团公司第二十九研究所_202211527024.3

基于OSR改正数增强的RAPPP观测模型精化方法_中国船舶集团有限公司第七〇七研究所_202410371641.1

镜头阴影校正数据检测方法及装置_昆山丘钛微电子科技股份有限公司_202110853003.X

快速相关技术

快速血糖测量提示装置_李丹凤_202323365617.7

煤质快速检测执行系统_国电环境保护研究院有限公司_202410597884.7

旁路电缆快速转接装置_湖北既济电力集团有限公司配网不停电作业分公司_202420037026.2

医疗软管快速收纳架_川北医学院附属医院_202323621459.7

快速锁紧的拼接床_嘉兴慕思智能家居有限公司_202420049844.4

一种多核架构下实现快速计算与快速同步的方法_成都北中网芯科技有限公司_202210173605.5

一种快速试气接头_玉环江宏机械有限公司_202420055524.X

用于快速啁啾PLL的相位预设_恩智浦美国有限公司_201910475001.4

一种快速切纸机_河南亿业纸制品有限公司_202420191648.0

慢行廊道系统快速施工设备_东栋宏业建设集团有限公司_202420205616.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于SIMD指令实现快速求解正数算术平方根的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务