买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:英特尔公司
摘要:一个实施例提供用于计算并分发数据以用于神经网络的分布式训练的系统,该系统包括:第一存储器,其存储包括机器学习框架的第一组指令;结构接口,其实现与该组可训练机器学习参数相关联的数据的传输和接收;第一组通用处理器核心,其执行第一组指令,该第一组指令提供训练工作流以用于针对可训练机器学习参数的梯度的计算并与第二组指令通信,该第二组指令有利于经由结构接口来传输和接收梯度;以及图形处理器,其执行与训练工作流相关联的计算操作以生成针对可训练机器学习参数的梯度。
主权项:1.一种用于计算并且分发数据以用于神经网络的分布式训练的系统,所述系统包括:第一存储器,其存储与机器学习框架相关联的第一指令以及与用于执行预定义的通信操作的点对点通信原语相关联的第二指令;第一组通用处理器核心,其执行所述第一指令,所述第一指令使得所述第一组通用处理器核心提供训练工作流以用于针对可训练机器学习参数的梯度的计算并且有利于经由所述第二指令传输和接收所述梯度;以及结构接口,其实现与所述可训练机器学习参数相关联的数据的传输和接收,所述结构接口包括电路模块,用于加速所述预定义的通信操作的执行,其中,所述结构接口被配置为与被配置用于所述神经网络的分布式训练的多个计算节点通信地耦合,所述多个计算节点中的每个计算节点包括:图形处理器,其执行与所述训练工作流相关联的计算操作以生成针对所述可训练机器学习参数的所述梯度,针对所述可训练机器学习参数的所述梯度根据经由所述第二指令的指令所指定的预定义的通信操作而经由所述结构接口被自动地交换。
全文数据:用于机器学习的硬件实现的点对点通信原语[0001]交叉引用[0002]本申请要求2017年6月5日提交的美国临时专利申请第62502,447号的权益,其公开内容通过引用被全部并入本文。技术领域[0003]实施例通常涉及数据处理,并且更特别地涉及经由通用图形处理单元进行数据处理。背景技术[0004]当前的并行图形数据处理包括被开发来对图像数据执行特定的操作(例如,线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。在传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的部分变得可编程,使这样的处理器能够支持用于处理顶点和片段数据的各种各样的操作。[0005]为了进一步增加性能,图形处理器一般实现处理技术,例如流水线,其试图贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程SIMT架构的并行图形处理器被设计为使得在图形流水线中的并行处理的量最大化。在S頂T架构中,几组并行线程试图尽可能经常地一起同步地执行程序指令以增加处理效率。可在ShaneCook的“CUDAProgramming”(第3章,37-51页(2013和或NicholasWi11的CUDAHandbookuAComprehensiveGuidetoGPUProgramming”(章节2.6.2到3.1.22013年6月)中找到SIMT架构的软件和硬件的一般概述。附图说明[0006]为了使本发明的特征可被详细地理解,可通过参考实施例来做出对本发明的更特定的描述,其中一些实施例在附图中示出。然而应注意,附图仅示出一般实施例,并且因此不应被考虑为所有实施例的范围的限制。[0007]图1是示出了被配置为实现本文所述的实施例的一个或多个方面的计算机系统的方框图;[0008]图2A-图2D示出了根据实施例的并行处理器部件;[0009]图3A-图3B是根据实施例的图形微处理器的方框图;[0010]图4A-图4F示出了示例性架构,其中多个GPU通信地耦合到多个多核处理器;[0011]图5示出了根据实施例的图形处理流水线;[0012]图6示出了根据实施例的机器学习软件堆栈;[0013]图7示出了根据实施例的高度并行通用图形处理单元;[0014]图8示出了根据实施例的多GPU计算系统;[0015]图9A-图9B示出了示例性深度神经网络的层;[0016]图10示出了示例性递归神经网络;[0017]图11示出了深度神经网络的训练和部署;[0018]图12是示出了分布式学习的方框图;[0019]图13示出了适合于使用所训练的模型来执行推理的示例性推理片上系统SOC;[0020]图14A-图14E示出了根据本文所述的实施例的在多个计算节点上执行的分布式机器学习计算操作期间使用的通信模式;[0021]图15A-图15C示出了由本文所述的实施例提供的机器学习缩放库的架构细节;[0022]图16A-图16B示出了由本文所述的实施例实现的分布式机器学习训练;[0023]图16C示出了根据实施例的使用点对点原语的节点间通信;[0024]图17A示出了根据实施例的多节点计算系统;[0025]图17B示出了根据实施例的具有分布式虚拟地址的点对点网络;[0026]图18示出了根据实施例的可选的MLSL架构;[0027]图19A示出了适合于细粒度计算和通信重叠的张量计算操作;[0028]图19B示出了根据实施例的在多节点系统之间的同步存储器存取;[0029]图19C示出了被扩展来实现针对高速缓存存储器数据的粗粒度高速缓存一致性的存储器通信语义;[0030]图20A-图20B示出了描述了用于经由MLSLAPI来实现分布式机器学习的操作的流程图;[0031]图21A-图21B示出了根据实施例的执行神经网络的分布式训练的方法;[0032]图22是根据本文所述的实施例的数据处理系统的方框图;[0033]图23是根据实施例的处理系统的方框图;[0034]图24是根据实施例的处理器的方框图;[0035]图25是根据实施例的图形处理器的方框图;[0036]图26是根据一些实施例的图形处理器的图形处理引擎的方框图;[0037]图27是由额外的实施例提供的图形处理器的方框图;[0038]图28示出了包括在一些实施例中采用的处理元件的阵列的线程执行逻辑;[0039]图29是示出了根据一些实施例的图形处理器指令格式的方框图;[0040]图30是根据另一实施例的图形处理器的方框图;[0041]图31A-图31B示出了根据一些实施例的图形处理器命令格式和命令序列;[0042]图32示出了根据一些实施例的用于数据处理系统的示例性图形软件架构;[0043]图33是示出了根据实施例的IP核心开发系统的方框图;[0044]图34是示出了根据实施例的示例性片上系统集成电路的方框图;[0045]图35是示出了根据实施例的额外的图形处理器的方框图;以及[0046]图36是示出了根据实施例的片上系统集成电路的额外的示例性图形处理器的方框图。具体实施方式[0047]在一些实施例中,图形处理单元GPU通信地耦合到主机处理器核心以加速图形操作、机器学习操作、图样分析操作和各种通用GHJGPGPU功能。GPU可通过总线或另一互连例如高速互连,例如PCIe或NVLink通信地耦合到主机处理器核心。在其它实施例中,GPU可与核心集成在同一封装或芯片上,并通过内部处理器总线互连(S卩,在封装或芯片内部)通信地耦合到核心。不考虑GPU被连接的方式,处理器核心可以以被包含在作业描述符中的命令指令的序列的形式将作业分配到GPUt3GPU然后使用专用电路逻辑以用于有效地处理这些命令指令。[0048]在下文的描述中,阐述了很多特定的细节以提供更彻底的理解。然而,对本领域中的技术人员显而易见的是,可在没有这些特定细节的一个或多个的情况下实践本文所述的实施例。在其它实例中,没有描述公知的特征以避免使当前实施例的细节模糊。[0049]系统概述[0050]图1是示出了被配置为实现本文所述的实施例的一个或多个方面的计算系统100的方框图。计算系统100包括处理子系统101,其具有一个或多个处理器102和经由可包括存储器集线器105的互连路径进行通信的系统存储器104。存储器集线器105可以是在芯片组部件内的单独部件或可集成在一个或多个处理器102内。存储器集线器105经由通信链路106与IO子系统111耦合。IO子系统111包括IO集线器107,其可使计算系统100能够从一个或多个输入设备108接收输入。此外,IO集线器107可实现可被包括在一个或多个处理器102中的显示控制器以向一个或多个显示设备IlOA提供输出。在一个实施例中,与IO集线器107耦合的一个或多个显示设备IlOA可包括本地、内部或嵌入式显示设备。[0051]在一个实施例中,处理子系统101包括经由总线或其它通信链路113耦合到存储器集线器105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议中的一个,所述基于标准的通信链路技术或协议例如但不限于快速PCI,或可以是供应商特定通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成包括大量处理核心和或处理集群的在计算上聚焦的并行或矢量处理系统,例如多核集成MIC处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,其可将像素输出到经由IO集线器107耦合的一个或多个显示设备IlOA中的一个。一个或多个并行处理器112也可包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备IlOB的直接连接。[0052]在IO子系统111内,系统存储单元114可连接到IO集线器107以针对计算系统100提供存储机制。IO开关116可用于提供接口机制以实现在IO集线器107和其它部件之间的连接,其它部件是例如网络适配器118和或可集成到平台内的无线网络适配器119和可经由一个或多个附件设备120而添加的各种其它设备。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可包括Wi-Fi、蓝牙、近场通信NFC或包括一个或多个无线电装置的其它网络设备中的一个或多个。[0053]计算系统100可包括未明确示出的其它部件,包括USB或其它端口连接、光学存储驱动器、视频捕获设备等,也可连接到IO集线器107。可使用任何适当的协议例如,基于PCI外围部件互连的协议例如,快速PCI或任何其它总线或点对点通信接口和或协议例如,NV-链路高速互连或在本领域中已知的互连协议来实现使图1中的各种部件互连的通信路径。[0054]在一个实施例中,一个或多个并行处理器112合并被优化以用于图形和视频处理的电路,包括例如视频输出电路,并构成图形处理单元GPU。在另一实施例中,一个或多个并行处理器112合并被优化以用于通用处理的电路,同时维持在本文更详细描述的基本计算架构。在又一实施例中,计算系统100的部件可与一个或多个其它系统一起集成在单个集成电路上。例如,一个或多个并行处理器112、存储器集线器105、处理器102和IO集线器107可集成到片上系统(SoC集成电路内。可选地,计算系统100的部件可集成到单个封装内以形成系统级封装SIP配置。在一个实施例中,计算系统100的部件的至少一部分可集成到多芯片模块MCM内,多芯片模块可与其它多芯片模块一起互连到模块化计算系统内。[0055]将认识到,本文所示的计算系统100是示出性的,以及变化和修改是可能的。可按需要修改连接拓扑,包括桥的数量和布置、处理器102的数量和并行处理器112的数量。例如,在一些实施例中,系统存储器104直接地而不是通过桥来连接到处理器102,同时其它设备经由存储器集线器105和处理器102与系统存储器104通信。在其它可选的拓扑中,并行处理器112连接到IO集线器107或直接连接到一个或多个处理器102中的一个而不是连接到存储器集线器105。在其它实施例中,IO集线器107和存储器集线器105可集成到单个芯片内。一些实施例可包括经由多个插槽附接的两个或更多组处理器102,插槽可与并行处理器112的两个或更多个实例耦合。[0056]本文所述的特定部件中的一些是可选的,并且可以不被包括在计算系统100的所有实现中。例如,可支持任何数量的附加卡或外围设备,或可消除一些部件。此外,一些架构可针对与图1所示的部件类似的部件使用不同的术语。例如,在一些架构中存储器集线器105可被称为北桥,而IO集线器107可被称为南桥。[0057]图2A示出了根据实施例的并行处理器200。可使用一个或多个集成电路设备(例如,可编程处理器、专用集成电路ASIC或现场可编程门阵列FPGA来实现并行处理器200的各种部件。根据实施例,所示的并行处理器200是图1所示的一个或多个并行处理器112的变形。[0058]在一个实施例中,并行处理器200包括并行处理单元202。并行处理单元包括IO单元204,其实现与包括并行处理单元202的其它实例的其它设备的通信。IO单元204可直接连接到其它设备。在一个实施例中,IO单元204经由集线器或开关接口(例如存储器集线器105的使用与其它设备连接。在存储器集线器105和IO单元204之间的连接形成通信链路113。在并行处理单元202内,IO单元204与主机接口206和存储器交叉开关216连接,其中主机接口206接收涉及执行处理操作的命令,而存储器交叉开关216接收涉及执行存储器操作的命令。[0059]当主机接口206经由IO单元204接收命令缓冲器时,主机接口206可将用于执行那些命令的作业操作引导到前端208。在一个实施例中,前端208与调度器210耦合,调度器210被配置为将命令或其它作业项目分配到处理集群阵列212。在一个实施例中,在任务被分发到处理集群阵列212的处理集群之前,调度器210确保处理集群阵列212正确地被配置并且在有效状态中。在一个实施例中,经由在微控制器上执行的固件逻辑来实现调度器210。微控制器实现的调度器210可被配置为在粗和细粒度下执行复杂的调度和作业分发操作,实现在处理阵列212上执行的线程的快速先占和上下文切换。在一个实施例中,主机软件可经由多个图形处理门铃中的一个来证明用于在处理阵列212上调度的工作负载。工作负载可接着由在调度器微控制器内的调度器210的逻辑自动分发在整个处理阵列212中。[0060]处理集群阵列212可包括多达“N”个处理集群(例如集群214A、集群214B到集群214N。处理集群阵列212的每个集群214A-214N可执行大量并发线程。调度器210可使用各种调度和或作业分配算法来将作业分配到处理集群阵列212的集群214A-214N,调度和或作业分配算法可取决于针对每种类型的程序或计算产生的工作负载而改变。调度可由调度器210动态地操纵,或可在被配置用于由处理集群阵列212执行的程序逻辑的编译期间部分地由编译器逻辑帮助。在一个实施例中,处理集群阵列212的不同集群214A-214N可被分配以用于处理不同类型的程序或用于执行不同类型的计算。[0061]处理集群阵列212可被配置为执行各种类型的并行处理操作。在一个实施例中,处理集群阵列212被配置为执行通用并行计算操作。例如,处理集群阵列212可包括用于执行处理任务的逻辑,处理任务包括视频和或音频数据的过滤、执行包括物理操作的建模操作,以及执行数据变换。[0062]在一个实施例中,处理集群阵列212被配置为执行并行图形处理操作。在并行处理器200被配置为执行图形处理操作的实施例中,处理集群阵列212可包括用于支持这样的图形处理操作的执行的额外的逻辑,包括但不限于用于执行纹理操作的纹理采样逻辑以及曲面细分逻辑和其它顶点处理逻辑。此外,处理集群阵列212可被配置为执行图形处理相关的着色器程序,例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可经由IO单元204从系统存储器传送数据以用于处理。在处理期间,所传送的数据可在处理期间存储到片上存储器例如并行处理器存储器222,然后被写回到系统存储器。[0063]在一个实施例中,当并行处理单元202用于执行图形处理时,调度器210可被配置为将处理工作负载划分为近似相等大小的任务,以更好地实现图形处理操作到处理集群阵列212的多个集群214A-214N的分发。在一些实施例中,处理集群阵列212的部分可被配置为执行不同类型的处理。例如,第一部分可被配置为执行顶点着色和拓扑生成,第二部分可被配置为执行曲面细分和几何着色,以及第三部分可被配置为执行像素着色或其它屏幕空间操作,以产生渲染的图像用于显示。由集群214A-214N中的一个或多个产生的中间数据可存储在缓冲器中以允许中间数据在集群214A-214N之间传输,用于进一步处理。[0064]在操作期间,处理集群阵列212可接收要经由调度器210来执行的处理任务,调度器210从前端208接收规定处理任务的命令。对于图形处理操作,处理任务可包括待处理的数据例如,表面补片数据、原语数据、顶点数据和或像素数据的索引以及状态参数和规定数据如何被处理(例如什么程序将被执行)的命令。调度器210可被配置为取出与任务相对应的索引,或可从前端208接收索引。前端208可被配置为在由进入的命令缓冲器例如批处理缓冲器、推进缓冲器等规定的工作负载被发起之前确保处理集群阵列212被配置到有效状态。[0065]并行处理单元202的一个或多个实例中的每个可与并行处理器存储器222耦合。可经由存储器交叉开关216存取并行处理器存储器222,存储器交叉开关216可从处理集群阵列212以及IO单元204接收存储器请求。存储器交叉开关216可经由存储器接口218来存取并行处理器存储器222。存储器接口218可包括多个划分单元例如划分单元220A、划分单元220B到划分单元220N,每个划分单元可耦合到并行处理器存储器222的一部分例如存储器单元)。在一个实现中,划分单元220A-220N的数量被配置为等于存储器单元的数量,使得第一划分单元220A具有相对应的第一存储器单元224A,第二划分单元220B具有相对应的第二存储器单元224B,以及第N划分单元220N具有相对应的N存储器单元224N。在其它实施例中,划分单元220A-220N的数量可以不等于存储器设备的数量。[0066]在各种实施例中,存储器单元224A-224N可包括各种类型的存储器设备,包括动态随机存取存储器(DRAM或图形随机存取存储器,例如同步图形随机存取存储器SGRAM,包括图形双数据率GDDR存储器。在一个实施例中,存储器单元224A-224N还可包括3D堆叠式存储器,包括但不限于高带宽存储器HBM。本领域中的技术人员将认识到,存储器单元224A-224N的特定实现可改变,并且可选自各种常规设计中的一个。渲染目标例如帧缓冲器或纹理图)可存储在存储器单元224A-224N中,允许划分单元220A-220N并行地写每个渲染目标的部分以有效地使用并行处理器存储器222的可用带宽。在一些实施例中,可以有利于利用系统存储器结合本地高速缓存存储器的统一的存储器设计而排除并行处理器存储器222的本地实例。[0067]在一个实施例中,处理集群阵列212的集群214A-214N中的任一个可处理将被写到并行处理器存储器222内的存储器单元224A-224N中的任一个的数据。存储器交叉开关216可被配置为将每个集群214A-214N的输出传送到任一划分单元220A-220N或另一集群214A-214N,其可对输出执行额外的处理操作。每个集群214A-214N可通过存储器交叉开关216与存储器接口218通信以从各种外部存储器设备读取或写到各种外部存储器设备。在一个实施例中,存储器交叉开关216具有到存储器接口218的连接以与IO单元204通信,以及具有到并行处理器存储器222的本地实例的连接,使在不同处理集群214A-214N内的处理单元能够与系统存储器或不是并行处理单元202本地的其它存储器通信。在一个实施例中,存储器交叉开关216可使用虚拟通道来分离在集群2144-214~和划分单元22^-22^之间的业务流。[0068]虽然在并行处理器200内示出了并行处理单元202的单个实例,但是可包括并行处理单元202的任何数量的实例。例如,并行处理单元202的多个实例可提供在单个附加卡上,或多个附加卡可被互连。并行处理单元202的不同实例可被配置为交互操作,即使不同实例具有不同数量的处理核心、不同量的本地并行处理器存储器和或其它配置差异。例如,并且在一个实施例中,并行处理单元202的一些实例相对于其它实例可包括更高精度浮点单元。可以各种配置和形状因子来实现合并行处理单元202或并行处理器200的一个或多个实例的系统,包括但不限于桌上型计算机、膝上型计算机或手持个人计算机、服务器、工作站、游戏控制台和或嵌入式系统。[0069]图2B是根据实施例的划分单元220的方框图。在一个实施例中,划分单元220是图2A的划分单元220A-220N中的一个的实例。如所示,划分单元220包括L2高速缓存221、帧缓冲器接口225和ROP226光栅操作单元)儿2高速缓存221是被配置为执行从存储器交叉开关216和ROP226接收的加载和存储操作的读写高速缓存。读未命中和紧急写回请求由L2高速缓存221输出到帧缓冲器接口225用于处理。更新也可经由帧缓冲器接口225被发送到帧缓冲器用于处理。在一个实施例中,帧缓冲器接口225与在并行处理器存储器中的存储器单元例如图2的存储器单元224A-224N例如在并行处理器存储器222内))中的一个接合。[0070]在图形应用中,ROP226是执行光栅操作例如,模板印刷、Z测试、混合等)的处理单元。ROP226然后输出存储在图形存储器中的经处理的图形数据。在一些实施例中,ROP226包括压缩逻辑以用于压缩被写到存储器的深度或颜色数据,并将从存储器读取的深度或颜色数据解压缩。压缩逻辑可以是利用多个压缩算法中的一个或多个的无损压缩逻辑。由ROP226执行的压缩的类型可基于待压缩的数据的统计特性而改变。例如,在一个实施例中,在每瓦片基础上对深度和颜色数据执行增量颜色压缩。[0071]在一些实施例中,ROP226被包括在每个处理集群例如图2的集群214A-214N内而不是在划分单元220内。在这样的实施例中,通过存储器交叉开关216来传输针对像素数据而不是对像素片段数据的读和写请求。经处理的图形数据可显示在显示设备例如,图1的一个或多个显示设备110中的一个上,被路由用于进一步由处理器102处理,或被路由用于进一步由在图2A的并行处理器200内的处理实体中的一个处理。[0072]图2C是根据实施例的在并行处理单元内的处理集群214的方框图。在一个实施例中,处理集群是图2的处理集群214A-214N中的一个的实例。处理集群214可被配置为并行地执行很多线程,其中术语“线程”指在特定的一组输入数据上执行的特定程序的实例。在一些实施例中,单指令多数据SMD指令发出技术用于支持大量线程的并行执行而不提供多个独立的指令单元。在其它实施例中,单指令多线程SIMT技术用于使用公共指令单元来支持大量通常同步的线程的并行执行,所述公共指令单元被配置为向在处理集群的每一个内的一组处理引擎发出指令。与SMD执行制度其中所有处理引擎一般执行相同的指令不同,SIMT执行通过给定线程程序来允许不同的线程更容易遵循发散的执行路径。本领域中的技术人员将理解,SHffi处理制度代表snrr处理制度的功能子集。[0073]可经由流水线管理器232来控制处理集群214的操作,流水线管理器232将处理任务分发到SMT并行处理器。流水线管理器232从图2的调度器210接收指令,并经由图形多处理器234和或纹理单元236来管理那些指令的执行。所示图形多处理器234是SMT并行处理器的示例性实例。然而,不同架构的各种类型的SMT并行处理器可被包括在处理集群214内。图形多处理器234的一个或多个实例可被包括在处理集群214内。图形多处理器234可处理数据,并且数据交叉开关240可用于将经处理的数据分发到多个可能的目的地中的一个,包括其它着色器单元。流水线管理器232可通过指定经由数据交叉开关240分发的经处理的数据的目的地来有利于经处理的数据的分发。[0074]在处理集群214内的每个图形多处理器234可包括相同的一组功能执行逻辑例如算术逻辑单元、加载-存储单元等)。可以用流水线方式来配置功能执行逻辑,其中新指令可在先前的指令完成之前被发出。功能执行逻辑支持各种操作,包括整数和浮点算术、比较操作、布尔操作、移位和各种代数功能的计算。在一个实施例中,可运用相同的功能-单元硬件以执行不同的操作,并且功能单元的任何组合可存在。[0075]发送到处理集群214的指令构成线程。在这组并行处理引擎上执行的一组线程是线程组。线程组对不同的输入数据执行同一程序。在线程组内的每个线程可被指派到在图形多处理器234内的不同的处理引擎。线程组可包括比在图形多处理器234内的处理引擎的数量少的线程。当线程组包括比处理引擎的数量少的线程时,处理引擎中的一个或多个可能在那个线程组正被处理的周期期间是空闲的。线程组也可包括比在图形多处理器234内的处理引擎的数量多的线程。当线程组包括比在图形多处理器234内的处理引擎的数量多的线程时,处理可在连续的时钟循环期间被执行。在一个实施例中,可在图形多处理器234上同时执行多个线程组。[0076]在一个实施例中,图形多处理器234包括内部高速缓存存储器以执行加载和存储操作。在一个实施例中,图形多处理器234可放弃内部高速缓存并使用在处理集群214内的高速缓冲存储器例如Ll高速缓存308。每个图形多处理器234也访问在所有处理集群214当中共享的划分单元例如图2的划分单元220A-220N内的L2高速缓存,并可用于在线程之间传送数据。图形多处理器234也可存取片外全局存储器,其可包括本地并行处理器存储器和或系统存储器中的一个或多个。在并行处理单元202外部的任何存储器可用作全局存储器。其中处理集群214包括图形多处理器234的多个实例的实施例可共享可以存储在Ll高速缓存308中的公共指令和数据。[0077]每个处理集群214可包括被配置为将虚拟地址映射到物理地址的MMU245存储器管理单元)。在其它实施例中,MMU245的一个或多个实例可存在于图2的存储器接口218内。MMU245包括用于将虚拟地址映射到瓦片的物理地址和可选地高速缓存行索引的一组页表条目(PTE。MMU245可包括地址旁路转换缓冲区(TLB或可存在于图形多处理器234内的高速缓存或Ll高速缓存或处理集群214。物理地址被处理以分发表面数据访问地点以允许有效请求在划分单元当中交织。高速缓存行索引可用于确定针对高速缓存行的请求是命中还是未命中。[0078]在图形和计算应用中,处理集群214可被配置使得每个图形多处理器234耦合到纹理单元236以用于执行纹理映射操作,例如确定纹理样本位置、读取纹理数据和过滤纹理数据。纹理数据是从内部纹理Ll高速缓存未示出)中读取的或在一些实施例中是从图形多处理器234内的Ll高速缓存中读取的,并按需要从L2高速缓存、本地并行处理器存储器或系统存储器取出。每个图形多处理器234将经处理的任务输出到数据交叉开关240,以向另一处理集群214提供经处理的任务以用于进一步处理或经由存储器交叉开关216将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。预ROP242预光栅操作单元被配置为从图形多处理器234接收数据、将数据引导到ROP单元,其可以与本文所述的划分单元例如图2的划分单元220A-220N位于一起。预ROP242的单元可针对颜色混合执行优化、组织像素彩色数据,并执行地址转换。[0079]将认识到,本文所述的核心架构是示出性的,以及变化和修改是可能的。任何数量的处理单元例如,图形多处理器234、纹理单元236、预ROP242等可被包括在处理集群214内。此外,虽然只示出一个处理集群214,但是如本文所述的并行处理单元可包括任何数量的处理集群214的实例。在一个实施例中,每个处理集群214可被配置为使用单独和不同的处理单元、Ll高速缓存等来独立于其它处理集群214而操作。[0080]图2D示出了根据一个实施例的图形多处理器234。在这样的实施例中,图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线,包括但不限于指令高速缓存252、指令单元254、地址映射单元256、寄存器文件258、一个或多个通用图形处理单元GPGPU核心262和一个或多个加载存储单元266APGPU核心262和加载存储单元266经由存储器和高速缓存存储器互连268与高速缓存存储器272和共享存储器270耦合。[0081]在一个实施例中,指令高速缓存252从流水线管理器232接收要执行的指令流。指令被高速缓存在指令高速缓存252中并被调度用于由指令单元254执行。指令单元254可分派指令作为线程组例如warp,线程组的每个线程被指派到GPGPU核心262内的不同执行单元。指令可通过指定统一地址空间内的地址来访问本地、共享或全局地址空间中的任一个。地址映射单元256可用于将统一地址空间中的地址转换成可由加载存储单元266存取的不同的存储器地址。[0082]寄存器文件258提供用于图形多处理器234的功能单元的一组寄存器。寄存器文件258提供用于连接到图形多处理器234的功能单元例如GPGPU核心262、加载存储单元266的数据路径的操作数的暂时性存储。在一个实施例中,寄存器文件258在每个功能单元之间进行划分,使得每个功能单元被分配有寄存器文件258的专用部分。在一个实施例中,寄存器文件258在由图形多处理器234执行的不同warp之间进行划分。[0083]GPGHJ核心262的每个可以包括用于执行图形多处理器234的指令的浮点单元FPU和或整数算术逻辑单元ALU。根据实施例,GPGPU核心262可在架构上是类似的,或可在架构上是不同的。例如,在一个实施例中,GPGPU核心262的第一部分包括单精度FPU和整数ALU,而GPGPU核心262的第二部分包括双精度FPU。在一个实施例中,FPU可实现用于浮点算术的IEEE754-2008标准或实现可变精度浮点算术。图形多处理器234可另外包括一个或多个固定功能或特殊功能单元以执行特定的功能,例如复制矩形或像素混合操作。在一个实施例中,GPGPU核心中的一个或或多个也可包括固定或特殊功能逻辑。[0084]在一个实施例中,GPGPU核心262包括能够对多组数据执行单个指令的S頂D逻辑。在一个实施例中,GPGPU核心262可以物理地执行SHflM、Snffi8和SMD16指令,并逻辑地执行SMDl、SniD2和SMD32指令。GPGPU核心的SMD指令可在编译时间由着色器编译器生成或当执行针对单程序多数据SPMD或SMT架构编写和编译的程序时自动生成。可经由单个SMD指令来执行被配置用于SMT执行模型的程序的多个线程。例如,并且在一个实施例中,执行相同或相似操作的八个S頂T线程可经由单个S頂D8逻辑单元来并行地执行。[0085]存储器和高速缓存互连268是互连网络,其将图形多处理器234的每个功能单元连接到寄存器文件258和共享存储器270。在一个实施例中,存储器和高速缓存互连268是交叉开关互连,其允许加载存储单元266在共享存储器270和寄存器文件258之间实现加载和存储操作。寄存器文件258可在与GPGPU核心262相同的频率下操作,因此在GPGPU核心262和寄存器文件258之间的数据传送是非常低的延迟。共享存储器270可用于实现在图形多处理器234内的功能单元上执行的线程之间的通信。高速缓存存储器272可用作例如数据高速缓存,以用于对在功能单元和纹理单元236之间传递的纹理数据进行高速缓存。共享存储器270也可用作被管理的高速缓存的程序。除了在高速缓存存储器272内存储的自动缓存的数据以外,在GPGPU核心262上执行的线程还可以编程的方式将数据存储在共享存储器内。[0086]图3A-图3B示出了根据实施例的额外的图形多处理器。所示图形多处理器325、350是图2C的图形多处理器234的变形。所示图形多处理器320、350可被配置为能够同时执行大量执行线程的流多处理器SM。[0087]图3A示出了根据额外的实施例的图形多处理器325。图形多处理器325包括关于图2D的图形多处理器234的执行资源单元的多个额外的实例。例如,图形多处理器325可包括指令单元332A-332B、寄存器文件334A-334B和纹理单元344A-344B的多个实例。图形多处理器325还包括多组图形或计算执行单元例如,GPGPU核心336A-336B、GPGPU核心337A-337B、GPGPU核心338A-338B和多组加载存储单元340A-340B。在一个实施例中,执行资源单元具有公共指令高速缓存330、纹理和或数据高速缓存存储器342和共享存储器346。[0088]各种部件可经由互连结构327进行通信。在一个实施例中,互连结构327包括一个或多个交叉开关以实现在图形多处理器325的各种部件之间的通信。在一个实施例中,互连结构327是单独的、高速网络结构层,其上堆叠图形多处理器325的每个部件。图形多处理器325的部件经由互连结构327与远程部件通信。例如,GPGPU核心336A-336B、337A-337B和3378A-338B每个可以经由互连结构327与共享存储器346通信。互连结构327可仲裁图形多处理器325内的通信以确保在部件之间的公平的带宽分配。[0089]图3B示出了根据额外的实施例的图形多处理器350。图形处理器包括多组执行资源356A-356D,其中每组执行资源包括多个指令单元、寄存器文件、GPGPU核心和加载存储单元,如图2D和图3A所示的。执行资源356A-356D可与纹理单元360A-360D协力作业以用于纹理操作,同时共享指令高速缓存354和共享存储器362。在一个实施例中,执行资源356A-356D可共享指令高速缓存354和共享存储器362以及纹理和或数据高速缓存存储器358A-358B的多个实例。各种部件可经由与图3A的互连结构327类似的互连结构352进行通ί目。[0090]本领域中的技术人员将理解,在图1、图2Α-图2D和图3Α-图3Β中所述的架构关于当前实施例的范围是描述性的而不是限制性的。因此,可在任何适当地配置的处理单元上实现本文所述的技术,所述处理单元包括而不限于一个或多个移动应用处理器、包括多核GPU的一个或多个桌上型计算机或服务器中央处理单元CPU、一个或多个并行处理单元例如图2的并行处理单元202以及一个或多个图形处理器或专用处理单元,而不偏离本文所述的实施例的范围。[0091]在一些实施例中,如本文所述的并行处理器或GPGPU通信地耦合到主机处理器核心以加速图形操作、机器学习操作、图样分析操作和各种通用GHJGPGPU功能。GPU可通过总线或另一互连例如高速互连,例如PCIe或NVLink通信地耦合到主机处理器核心。在另一实施例中,GPU可与核心集成在同一封装或芯片上,并通过内部处理器总线互连即,在封装或芯片内部通信地耦合到核心。不考虑GPU被连接的方式,处理器核心可以以被包含在作业描述符中的命令指令的序列的形式中将作业分发到GPUt3GPU然后使用专用电路逻辑以用于有效地处理这些命令指令。[0092]用于GPU到主机处理器互连的技术[0093]图4A示出了示例性架构,其中多个GPU410-413通过高速链路440-443例如总线、点对点互连等)通信地耦合到多个多核处理器405-406。在一个实施例中,高速链路440-443取决于实现支持4GBs、30GBs、80GBs或更高速度的通信吞吐量。可使用各种互连协议,包括但不限于PCIe4.0或5.0和NVLink。然而,本发明的基本原理不限于任何特定的通信协议或吞吐量。[0094]此外,在一个实施例中,通过高速链路444-445来互连GPU410-413中的两个或更多个,这可使用与用于高速链路440-443的协议链路相同或不同的协议链路来实现。类似地,可通过高速链路433来连接多核处理器405-406中的两个或更多个,高速链路433可以是在20GBs、30GBs、120GBS或更高速度下操作的对称多处理器SMP总线。可选地,可使用相同的协议链路例如通过公共互连结构来实现在图4A所示的各种系统部件之间的所有通信。然而,如所提到的,本发明的基本原理不限于任何特定类型的互连技术。[0095]在一个实施例中,每个多核处理器405-406分别经由存储器互连430-431通信地耦合到处理器存储器401-402,并且每个GPU410-413分别通过GPU存储器互连450-453通信地耦合到GHJ存储器420-423。存储器互连430-431和450-453可利用相同或不同的存储器存取技术。作为示例而不是限制,处理器存储器401-402和GPU存储器420-423可以是易失性存储器,例如动态随机存取存储器DRAM包括堆叠式DRAM、图形DDRSDRAMGDDR例如⑶DR5、⑶DR6或高带宽存储器HBM和或可以是非易失性存储器,例如3DXPoint或Nano-Ram。在一个实施例中,存储器的某个部分可以是易失性存储器,而另一部分可以是非易失性存储器例如使用二级存储器2LM分级结构)。[0096]如下所述,虽然各种处理器405-406和GPU410-413可分别物理地耦合到特定的存储器401-402、420-423,但是可实现统一存储器架构,其中同一虚拟系统地址空间(也被称为“有效地址”空间)分布在各种物理存储器的全部当中。例如,处理器存储器401-402每个可以包括64GB的系统存储器地址空间,以及GPU存储器420-423每个可以包括32GB的系统存储器地址空间(在这个示例中导致总共256GB可寻址存储器)。[0097]图4B示出了根据一个实施例的用于多核处理器407和图形加速模块446之间的互连的额外细节。图形加速模块446可包括集成在线卡上的一个或多个GPU芯片,线卡经由高速链路440耦合到处理器407。可选地,图形加速模块446可与处理器407集成在同一封装或芯片上。[0098]所示处理器407包括多个核心460A-460D,每个核心具有旁路转换缓冲区461A-461D和一个或多个高速缓存462A-462D。核心可包括用于执行指令并处理数据的各种其它部件例如,指令取出单元、分支预测单元、解码器、执行单元、记录器缓冲器等),其没有被示出以避免使本发明的基本原理模糊。高速缓存462A-462D可包括1级LI和2级L2高速缓存。此外,一个或多个共享高速缓存426可被包括在缓存分级结构中并由几组核心460A-460D共享。例如,处理器407的一个实施例包括24个核心,每个核心具有它自己的Ll高速缓存、12个共享L2高速缓存和12个共享L3高速缓存。在这个实施例中,L2和L3高速缓存中的一个由两个相邻的核心共享。处理器407和图形加速器集成模块446与系统存储器441连接,系统存储器441可包括处理器存储器401-402。[0099]经由核心间通信通过一致性总线464来针对存储在各种高速缓存462A-460D、456和系统存储器441中的数据和指令维持一致性。例如,每个高速缓存可具有与其相关联的高速缓存一致性逻辑电路以响应于对特定的高速缓存行的检测到的读或写而通过一致性总线464进行通信。在一个实现中,通过一致性总线464来实现高速缓存窥探协议以窥探高速缓存存取。高速缓存窥探一致性技术被本领域中的技术人员很好地理解,并且将不在本文详细描述以避免使本发明的基本原理模糊。[0100]在一个实施例中,代理电路425将图形加速模块446通信地耦合到一致性总线464,允许图形加速模块446参与高速缓存一致性协议作为核心的对等物。特别是,接口435通过高速链路440例如PCIe总线、NVLink等)提供到代理电路425的连接性,并且接口437将图形加速模块446连接到链路440。[0101]在一个实现中,加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、N提供高速缓存管理、存储器存取、上下文管理和中断管理服务。图形处理引擎431、432、N每个可以包括单独的图形处理单元GPU。可选地,图形处理引擎431、432、N可包括在GPU例如图形执行单元)内的不同类型的图形处理引擎、媒体处理引擎例如视频编码器解码器)、采样器和Blit引擎。换句话说,图形加速模块可以是具有多个图形处理引擎431-432、N的GPU,或图形处理引擎431-432、N可以是集成在公共封装、线卡或芯片上的单独GPU。[0102]在一个实施例中,加速器集成电路436包括用于执行各种存储器管理功能(例如,虚拟到物理存储器转换也被称为有效到实际存储器转换)和用于存取系统存储器441的存储器存取协议)的存储器管理单元MMU439JMU439还可包括用于缓存虚拟有效到物理真实地址转换的旁路转换缓冲区(TLB未示出)。在一个实施例中,加速器集成电路436包括取出单元491以取出定义待执行的操作的命令、指令、作业描述符等。在一个实现中,高速缓存438存储命令和数据以用于由图形处理引擎431-432、N有效地存取。在一个实施例中,存储在高速缓存438和图形存储器433-434、N中的数据保持与核心高速缓存462A-462D、456和系统存储器441一致。如所提到的,这可经由代理电路425来完成,代理电路425代表高速缓存438和存储器433-434、N参与高速缓存一致性机制例如将与在处理器高速缓存462A-462D、456上的高速缓存行的修改存取有关的更新发送到高速缓存438并从高速缓存438接收更新)。[0103]一组寄存器449存储由图形处理引擎431-432、N执行的线程的上下文数据,并且上下文管理电路448管理线程上下文。例如,上下文管理电路448可执行保存和恢复操作以在上下文切换期间保存和恢复各种线程的上下文例如其中第一线程被保存,而第二线程被存储,使得第二线程可由图形处理引擎执行)。例如,在上下文切换时,上下文管理电路448可将当前寄存器值存储到存储器中的指定区域例如由上下文指针所标识的)。它可接着在返回到上下文时恢复寄存器值。在一个实施例中,中断管理电路447接收并处理从系统设备接收的中断。[0104]在一个实现中,来自图形处理引擎431的虚拟有效地址由MMU439转换成在系统存储器411中的真实物理地址。加速器集成电路436的一个实施例支持多个例如4、8、16个)图形加速器模块446和或其它加速器设备。图形加速器模块446可专用于在处理器407上执行的单个应用或可在多个应用之间被共享。在一个实施例中,呈现虚拟化图形执行环境,其中与多个应用或虚拟机VM共享图形处理引擎431-432、N的资源。资源可被细划分为“片”,其基于与VM和或应用相关联的处理要求和优先级而被分配给不同的VM和或应用。[0105]因此,加速器集成电路充当到用于图形加速模块446的系统的桥,并提供地址转换和系统存储器高速缓存服务。此外,加速器集成电路436可针对主机处理器提供虚拟化设施以管理图形处理引擎、中断和存储器管理的虚拟化。[0106]因为图形处理引擎431-432、N的硬件资源明确地映射到由主机处理器407可见的真实地址空间,所以任何主机处理器可直接使用有效地址值来处理这些资源。在一个实施例中,加速器集成电路436的一个功能是图形处理引擎431-432、N的物理分离,使得它们对系统看来作为独立的单元。[0107]如所提到的,在所示实施例中,一个或多个图形存储器433_434、M分别耦合到图形处理引擎431-432、N中的每个。图形存储器433-434、M存储由图形处理引擎431-432、N中的每个处理的指令和数据。图形存储器433-434、M可以是易失性存储器,例如DRAM包括堆叠式DRAM、GDDR存储器例如GDDR5、GDDR6或HBM,和或可以是非易失性存储器,例如3DXPoint或Nano-Ram〇[0108]在一个实施例中,为了减少在链路440上的数据业务,偏置技术用于确保存储在图形存储器433-434、M中的数据是由图形处理引擎431-432、N最频繁地使用并且优选地不由核心460A-460D使用至少不是频繁地)的数据。类似地,偏置机制试图保持由在核心的高速缓存462A-462D、456和系统存储器411内的核心(并且优选地不是图形处理引擎431-432、N所需的数据。[0109]图4C示出了另一实施例,其中加速器集成电路436集成在处理器407内。在这个实施例中,图形处理引擎431-432、N通过高速链路440经由接口437和接口435其再次可利用任何形式的总线或接口协议直接与加速器集成电路436通信。加速器集成电路436可执行与关于图4B所述的相同的操作,但可能在更高的吞吐量下,假定它极接近一致性总线462和高速缓存462A-462D、456。[0110]—个实施例支持不同的编程模型,包括专用进程编程模型无图形加速模块虚拟化和共享编程模型有虚拟化)。后者可包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。[0111]在专用进程模型的一个实施例中,图形处理引擎431-432、N专用于在单个操作系统下的单个应用或过程。单个应用可将其它应用请求送入提供在VM分区内的虚拟化的图形处理引擎431-432、N。[0112]在专用进程编程模型中,图形处理引擎431-432、N可由多个VM应用分区共享。共享模型需要系统管理程序来虚拟化图形处理引擎431-432、N以允许由每个操作系统访问。对于没有管理程序的单分区系统,图形处理引擎431-432、N由操作系统拥有。在这两种情况下,操作系统都可虚拟化图形处理引擎431-432、N以提供对每个过程或应用的访问。[0113]对于共享编程模型,图形加速模块446或单独的图形处理引擎431-432、N使用进程句柄来选择进程元素。在一个实施例中,进程元素存储在系统存储器411中,并且是使用本文所述的有效地址到真实地址转换技术可寻址的。进程句柄可以是当向图形处理引擎431-432、N注册它的上下文时被提供到主机进程的实现特定的值也就是说,调用系统软件以将进程元素添加到进程元素链接列表)。进程句柄的较低的16位可以是在进程元素链接列表内的进程元素的偏移。[0114]图4D示出了示例性加速器集成片490。如在本文使用的,“片”包括加速器集成电路436的处理资源的特定部分。在系统存储器411内的应用有效地址空间482存储进程元素483。在一个实施例中,响应于来自在处理器407上执行的应用480的GPU调用481而存储进程元素483。进程元素483包含相对应的应用480的进程状态。被包含在进程元素483中的作业描述符WD484可以是由应用请求的单个作业,或可包含指向作业的队列的指针。在后一情况下,WD484是指向在应用的地址空间482中的作业请求队列的指针。[0115]图形加速模块446和或单独的图形处理引擎431-432、N可由系统中的进程的全部或子集共享。本发明的实施例包括用于建立进程状态并将WD484发送到图形加速模块446以在虚拟化环境中开始作业的基础设施。[0116]在一个实现中,专用进程编程模型是实现特定的。在这个模型中,单个进程拥有图形加速模块446或单独的图形处理引擎431。因为图形加速模块446由单个进程拥有,所以管理程序为拥有分区初始化加速器集成电路436,并且操作系统在图形加速模块446被分配时的时间为拥有进程初始化加速器集成电路436。[0117]在操作中,在加速器集成片490中的WD取出单元491取出下一WD484,其包括由图形加速模块446的图形处理引擎中的一个完成的作业的指示。来自WD484的数据可存储在寄存器449中并由如所示的MMU439、中断管理电路447和或上下文管理电路446使用。例如,MMU439的一个实施例包括用于访问在OS虚拟地址空间485内的片段页表486的片段页行走电路。中断管理电路447可处理从图形加速模块446接收的中断事件492。当执行图形操作时,由图形处理引擎431-432、N产生的有效地址493由MMU439转换成真实地址。[0118]在一个实施例中,同一组寄存器449针对每个图形处理引擎431-432、N和或图形加速模块446是重复的,并且可由管理程序或操作系统初始化。这些重复的寄存器中的每个可被包括在加速器集成片490中。在表1中示出可由管理程序初始化的示例性寄存器。[0119]表1-管理程序初始化的寄存器[0121]在表2中示出可由操作系统初始化的示例性寄存器。[0122]表2-操作系统初始化的寄存器[0125]在一个实施例中,每个WD484对特定的图形加速模块446和或图形处理引擎431-432、N是特定的。它包含图形处理引擎431-432、N需要来完成它的作业的所有信息,或它可以是指向应用在其中已建立待完成的作业的命令队列的存储器位置的指针。[0126]图4E示出了共享模型的一个实施例的额外细节。这个实施例包括其中存储有进程元素列表499的管理程序真实地址空间498。管理程序真实地址空间498是经由管理程序496可访问的,管理程序496对操作系统495的图形加速模块引擎进行虚拟化。[0127]共享编程模型允许来自系统中的分区的全部或子集的进程的全部或子集使用图形加速模块446。存在两个编程模型,其中图形加速模块446由多个进程和分区共享:时间片共孚和图形指向共孚。[0128]在这个模型中,系统管理程序496拥有图形加速模块446,并使它的功能对所有操作系统495变得可用。为了使图形加速模块446通过系统管理程序496支持虚拟化,图形加速模块446可坚持下文的要求:1应用的作业请求必须是自主的(也就是说,状态不需要在作业之间被维持),或图形加速模块446必须提供上下文保存和恢复机制。2应用的作业请求由图形加速模块446保证以在规定数量的时间内完成,包括任何转换错误,或图形加速模块446提供用于抢占作业的处理的能力。3图形加速模块446当在直接共享编程模型中操作时必须被保证在进程之间的公平。[0129]在一个实施例中,对于共享模型,应用480需要使用图形加速模块446类型、作业描述符WD、权限屏蔽寄存器AMR值和上下文保存恢复区域指针CSRP来进行操作系统495系统调用。图形加速模块446类型描述系统调用的目标加速功能。图形加速模块446类型可以是系统特定值。WD特别针对图形加速模块446进行格式化,并且可以以图形加速模块446命令、指向用户定义的结构的有效地址指针、指向命令的队列的有效地址指针或任何其它数据结构的形式来描述将由图形加速模块446完成的作业。在一个实施例中,AMR值是用于当前进程的AMR状态。被传递到操作系统的值类似于设置AMR的应用。如果加速器集成电路436和图形加速模块446实现不支持用户权限掩蔽覆盖寄存器UAMOR,则操作系统可在传递管理程序调用中的AMR之前将当前UAMOR值应用于AMR值。管理程序496可以可选地在将AMR放置到进程元素483内之前应用当前权限掩蔽覆盖寄存器AMOR值。在一个实施例中,CSRP是包含用于图形加速模块446的应用的地址空间482中的区域的有效地址的寄存器449中的一个以保存并恢复上下文状态。如果在作业之间或当作业被抢占时没有状态需要被保存,则这个指针是可选的。上下文保存恢复区域可以是固定的系统存储器。[0130]当接收到系统调用时,操作系统495可证实应用480已注册并且被给予权限来使用图形加速模块446。操作系统495然后使用在表3中所示的信息来调用管理程序496。[0131]表3-0S到管理程序调用参数[0133]当接收到管理程序调用时,管理程序496证实操作系统495已注册并且被给予权限来使用图形加速模块446。然后管理程序496将进程元素483放置在相对应的图形加速模块446类型的进程元素链接列表内。进程元素可包括表4所示的信息。[0134]表4-进程元素信息[0137]在一个实施例中,管理程序对加速器集成片490的多个寄存器449进行初始化。[0138]如图4F所示,本发明的一个实施例采用经由公共虚拟地址空间可寻址的统一存储器,所述公共虚拟地址空间用于存取物理处理器存储器401-402和GPU存储器420-423。在这个实现中,在GPU410-413上执行的操作利用同一虚拟有效存储器地址空间来存取处理器存储器401-402,反之亦然,从而简化可编程性。在一个实施例中,虚拟有效地址空间的第一部分被分配到处理器存储器401,第二部分被分配到第二处理器存储器402,第三部分被分配到GPU存储器420,依此类推。整个虚拟有效存储器空间(有时被称为有效地址空间)因而分布在处理器存储器401-402和GPU存储器40-423的每个上,允许任何处理器或GPU利用映射到任何物理存储器的虚拟地址来存取那个存储器。[0139]在一个实施例中,在MMU439A-439E的一个或多个内的偏置一致性管理电路494A-494E确保在主机处理器(例如405的高速缓存和GPU410-413之间的高速缓存一致性,并实现指示某些类型的数据应存储于其中的物理存储器的偏置技术。虽然在图4F中示出了偏置一致性管理电路494A-494E的多个实例,但是偏置一致性电路可在一个或多个主机处理器405的MMU内和或在加速器集成电路436内实现。[0140]—个实施例允许GPU附接的存储器420-423被映射为系统存储器的部分,并使用共孚虚拟存储器SVM技术被存取,但没有遭受与完全的系统尚速缓存一致性相关联的一般性能缺陷。GPU附接的存储器420-423作为系统存储器被存取而没有繁重的高速缓存一致性开销的能力针对GPU卸载提供有益的操作环境。这个布置允许主机处理器405软件建立操作数和访问计算结果,而没有传统IODMA数据拷贝的开销。这样的传统拷贝涉及驱动器调用、中断和存储器映射的IOMMIO存取,其相对于简单的存储器存取都是低效的。同时,存取GPU附接的存储器420-423而没有高速缓存一致性开销的能力可能对卸载的计算的执行时间是关键的。在大量流式传送写存储器业务的情况下,例如高速缓存一致性开销可明显减小由GPU410-413看到的有效写带宽。操作数建立的效率、结果访问的效率和GHJ计算的效率都在确定GPU卸载的有效性时起作用。[0141]在一个实现中,在GPU偏置和主机处理器偏置之间的选择由偏置跟踪器数据结构驱动。例如可使用偏置表,其可以是包括每GPU附接的存储器页的1或2位的页面粒状结构即,在存储器页的粒度下被控制)。偏置表可在GPU410-413中有或没有偏置高速缓存的情况下,在一个或多个GPU附接的存储器420-423的被盗存储器范围内实现例如以用于对偏置表的频繁地最近使用的条目进行高速缓存)。可选地,可在GPU内维持整个偏置表。[0142]在一个实现中,与对GPU附接的存储器420-423的每次存取相关联的偏置表条目在对GPU存储器的实际存取之前被存取,引起下文的操作。首先,来自GPU410-413的找到它们在GPU偏置中的页面的本地请求被直接转发到相对应的GPU存储器420-423。来自GPU的找到它们在主机偏置中的页面的本地请求被转发到处理器405例如通过如上讨论的高速链路)。在一个实施例中,来自处理器405的找到它们在主机处理器偏置中的所请求的页面的请求完成如正常存储器读取之类的请求。可选地,指向GPU偏置的页面的请求可被转发到GPU410-413。如果GPU当前不使用页面,则它可接着将该页面转换到主机处理器偏置。[0143]页面的偏置状态可由基于软件的机制、硬件辅助的基于软件的机制改变,或对于有限的一组情况,由纯粹基于硬件的机制改变。[0144]用于改变偏置状态的一个机制采用API调用(例如OpenCL,其继而调用GPU的设备驱动器,其继而将消息或使命令描述符加入队列发送到GPU,GPU引导它改变偏置状态的,并且对于一些转变,在主机中执行高速缓存刷新操作。高速缓存刷新操作对于从主机处理器405到GPU偏置的转变是需要的,但对于相反的转变是不需要的。[0145]在一个实施例中,通过暂时性渲染不可由主机处理器405缓存的GPU偏置的页面来维持高速缓存一致性。为了存取这些页面,处理器405可请求从GPU410的存取,GPU410取决于实现可以或可以不立刻授予存取权限。因此,为了减少在处理器405和GPU410之间的通信,有益的是确保GPU偏置的页面是由GPU但不是主机处理器405所需的页面,反之亦然。[0146]图形处理流水线[0147]图5示出了根据实施例的图形处理流水线500。在一个实施例中,图形处理器可实现所示的图形处理流水线500。图形处理器可被包括在如本文所述的并行处理子系统(例如图2的并行处理器200内,并行处理器200在一个实施例中是图1的并行处理器112的变形。各种并行处理系统可经由如本文所述的并行处理单元例如图2的并行处理单元202的一个或多个实例来实现图形处理流水线500。例如,着色器单元例如图3的图形多处理器234可被配置为执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段像素处理单元514中的一个或多个的功能。数据汇编器502、原语汇编器506、514、516、曲面细分单元510、光栅化器522和光栅操作单元526的功能也可由在处理集群(例如图3的处理集群214内的其它处理引擎和相对应的划分单元例如图2的划分单元220A-220N执行。也可使用一个或多个功能的专用处理单元来实现图形处理流水线500。在一个实施例中,图形处理流水线500的一个或多个部分可由在通用处理器例如CPU内的并行处理逻辑执行。在一个实施例中,图形处理流水线500的一个或多个部分可经由存储器接口528来存取片上存储器(例如,如在图2中的并行处理器存储器222,存储器接口528可以是图2的存储器接口218的实例。[0148]在一个实施例中,数据汇编器502是收集表面和原语的顶点数据的处理单元。数据汇编器502然后向顶点处理单元504输出包括顶点属性的顶点数据。顶点处理单元504是执行顶点着色器程序的可编程执行单元,其如由顶点着色器程序规定的对顶点数据进行照明和变换。顶点处理单元504读取存储在高速缓存、本地或系统存储器中的数据以用于在处理顶点数据时使用,并可被编程以将顶点数据从基于对象的坐标表示变换到世界空间坐标空间或标准化设备坐标空间。[0149]原语汇编器506的第一实例从顶点处理单元504接收顶点属性。原语汇编器506按需要读取所存储的顶点属性并构造图形原语以用于由曲面细分控制处理单元508处理。图形原语包括三角形、线段、点、补片等,如由各种图形处理应用编程接口(API支持的。[0150]曲面细分控制处理单元508将输入顶点处理为用于几何补片的控制点。控制点从来自补片例如补片的基底)的输入表示变换为适合于在表面评估中由曲面细分评估处理单元512使用的表示。曲面细分控制处理单元508也可计算用于几何补片的边的曲面细分因子。曲面细分因子应用于单个边,并量化与边相关联的细节的视图相关水平。曲面细分单元510被配置为接收用于补片的边的曲面细分因子并将补片细划分为多个几何原语,例如线、三角形或四边形原语,其被发送到曲面细分评估处理单元512。曲面细分评估处理单元512对细分的补片的参量化坐标进行操作以生成与几何原语相关联的每个顶点的表面表示和顶点属性。[0151]原语汇编器514的第二实例从曲面细分评估处理单元512接收顶点属性,按需要读取所存储的顶点属性,并构造图形原语以用于由几何处理单元516处理。几何处理单元516是可编程执行单元,其执行几何着色器程序以变换如由几何着色器程序规定的从原语汇编器514接收的图形原语。在一个实施例中,几何处理单元516被编程以将图形原语细划分为一个或多个新图形原语,并计算用于光栅化新图形原语的参数。[0152]在一些实施例中,几何处理单元516可添加或删除在几何流中的元素。几何处理单元516向原语汇编器518输出规定新图形原语的参数和顶点。原语汇编器518从几何处理单元516接收参数和顶点,并构造图形原语以用于由视口缩放、剔除和剪辑单元520处理。几何处理单元516读取存储在并行处理器存储器或系统存储器中的数据以用于在处理几何数据时使用。视口缩放、剔除和剪辑单元520执行剪辑、剔除和视口缩放,并向光栅化器522输出经处理的图形原语。[0153]光栅化器522可执行深度剔除和其它基于深度的优化。光栅化器522还对新图形原语执行扫描转换以生成片段,并将那些片段和相关联的覆盖数据输出到片段像素处理单元524。片段像素处理单元524是被配置为执行片段着色器程序或像素着色器程序的可编程执行单元。片段像素处理单元524如由片段或像素着色器程序规定的变换从光栅化器522接收的片段或像素。例如,片段像素处理单元524可被编程以执行操作,包括但不限于纹理映射、着色、混合、纹理校正和透视校正以产生被输出到光栅操作单元526的已着色的片段或像素。片段像素处理单元524可读取存储在并行处理器存储器或系统存储器中的数据以用于在处理片段数据时使用。片段或像素着色器程序可被配置为取决于被配置用于处理单元的采样速率在样本、像素、瓦片或其它粒度下着色。[0154]光栅操作单元526是执行光栅操作包括但不限于模板印刷、z测试、混合等并输出像素数据作为经处理的图形数据以被存储在图形存储器例如,如在图2中的并行处理器存储器222和或如在图1中的系统存储器104,以被显示一个或多个显示设备110上或用于进一步由一个或多个处理器102中的一个或并行处理器112处理)中的处理单元。在一些实施例中,光栅操作单元526被配置为压缩写到存储器的z或颜色数据,并将从存储器读取的z或颜色数据解压缩。[0155]机器学习概述[0156]机器学习算法是可基于一组数据来学习的算法。机器学习算法的实施例可设计成对在数据集内的高级抽象建模。例如,图像识别算法可用于确定给定输入属于几个类别中的哪个;给定输入,回归算法可输出数值;以及模式识别算法可用于生成转换的文本或执行文本到语音和或语音识别。[0157]示例性类型的机器学习算法是神经网络。存在很多类型的神经网络;简单类型的神经网络是前馈网络。前馈网络可被实现为非周期性曲线,其中节点布置在层中。一般,前馈网络拓扑包括由至少一个隐藏层分离的输入层和输出层。隐藏层将由输入层接收的输入变换成对生成输出层中的输出有用的表示。网络节点经由边完全连接到在相邻层中的节点,但在每个层内的节点之间没有边。在前馈网络的输入层的节点处接收的数据经由激活功能被传播(即“正向馈送”)到输出层的节点,激活功能基于分别与连接所述层的每个边相关联的系数(“权重”)来计算在网络中的每个连续层的节点的状态。取决于由正执行的算法表示的特定模型,来自神经网络算法的输出可采用各种形式。[0158]在机器学习算法可用于对特定的问题建模之前,使用训练数据集来训练算法。训练神经网络涉及选择网络拓扑,使用表示由网络建模的问题的一组训练数据,以及调节权重直到网络模型以最少的错误针对训练数据集的所有实例执行为止。例如,在用于神经网络的被监督的学习训练过程期间,将响应于表示在训练数据集中的实例的输入而由网络产生的输出与那个实例的“正确”标记的输出比较,计算表示在输出和所标记的输出之间的差异的错误信号,以及当错误信号通过网络的层向后传播时调节与连接相关联的权重以最小化那个错误。当根据训练数据集的实例而生成的每个输出的错误被最小化时,网络被考虑为“经训练的”。[0159]机器学习算法的准确性可明显受到用于训练算法的数据集的质量影响。训练过程可以在计算上是密集的,并且可能在常规通用处理器上需要相当大数量的时间。因此,并行处理硬件用于训练很多类型的机器学习算法。这对优化神经网络的训练是特别有用的,因为在调节神经网络中的系数时执行的计算自然适用于并行实现。特别地,很多机器学习算法和软件应用适合于利用在通用图形处理设备内的并行处理硬件。[0160]图6是机器学习软件堆栈600的广义图。机器学习应用602可被配置为使用训练数据集来训练神经网络或使用经训练的深度神经网络来实现机器智能。机器学习应用602可包括用于神经网络和或可用于在部署之前训练神经网络的专用软件的训练和推理功能。机器学习应用602可实现任何类型的机器智能,包括但不限于图像识别、映射和局部化、自动导航、语音合成、医学成像或语言翻译。[0161]可经由机器学习框架604来实现机器学习应用602的硬件加速。机器学习框架604可提供机器学习原语的库。机器学习原语是通常由机器学习算法执行的基本操作。在没有机器学习框架604的情况下,机器学习算法的开发者将需要创建并优化与机器学习算法相关的主要计算逻辑,然后在新并行处理器被开发时重新优化计算逻辑。替代地,机器学习应用可被配置为使用由机器学习框架604提供的原语来执行必要的计算。示例性原语包括张量卷积、激活功能和池,其为当训练卷积神经网络CNN时执行的计算操作。机器学习框架604还可提供原语以实现由很多机器学习算法(例如矩阵和矢量操作执行的基本线性代数子程序。[0162]机器学习框架604可处理从机器学习应用602接收的输入数据并生成对计算框架606的适当输入。计算框架606可对被提供到GPGPU驱动器608的基本指令进行抽象化以使机器学习框架604能够利用经由GPGPU硬件610的硬件加速而不需要机器学习框架604具有GPGPU硬件610的架构的详细的知识。此外,计算框架606可实现针对机器学习框架604遍及各种类型和代的GPGPU硬件610的硬件加速。[0163]GPGPU机器学习加速[0164]图7示出了根据实施例的高度并行的通用图形处理单元700。在一个实施例中,通用处理单元GPGPU700可被配置为在处理与训练深度神经网络相关联的计算工作负载的类型时是特别有效的。此外,GPGPU700可直接链接到GPGPU的其它实例以创建多GPU集群来提高特别是深度神经网络的训练速度。[0165]GPGPU700包括主机接口702以实现与主机处理器的连接。在一个实施例中,主机接口702是快速PCI接口。然而,主机接口也可以是供应商特定通信接口或通信结构。GPGPU700从主机处理器接收命令并使用全局调度器704来将与那些命令相关联的执行线程分配到一组计算集群706A-706H。计算集群706A-706H共享高速缓存存储器708。高速缓存存储器708可用作在计算集群706A-706H内的高速缓存存储器的较高级高速缓存。[0166]GPGPU700包括经由一组存储器控制器712A-712B与计算集群706A-706H耦合的存储器714A-714B。在各种实施例中,存储器714A-714B可包括各种类型的存储器设备,包括动态随机存取存储器DRAM或图形随机存取存储器,例如同步图形随机存取存储器SGRAM,包括图形双数据率GDDR存储器。在一个实施例中,存储器单元224A-224N还可包括3D堆叠式存储器,包括但不限于高带宽存储器HBM。[0167]在一个实施例中,每个计算集群706A-706H包括一组图形多处理器,例如图4A的图形多处理器。计算集群的图形多处理器可以以包括适合于机器学习计算的一定范围的精度来执行计算操作的多种类型的整数和浮点逻辑单元。例如,并且在一个实施例中,在计算集群706A-706H的每个中的浮点单元的至少子集可被配置为执行16位或32位浮点操作,虽然浮点单元的不同子集可被配置为执行64位浮点操作。[0168]GPGPU700的多个实例可被配置为作为计算集群来操作。由计算集群使用以用于同步和数据交换的通信机制在全部实施例中不同。在一个实施例中,GPGPU700的多个实例通过主机接口702进行通信。在一个实施例中,GPGPU700包括将GPGPU700与GPU链路710耦合的IO集线器709,GPU链路710实现与GPGPU的其它实例的直接连接。在一个实施例中,GPU链路710耦合到专用GPU到GPU桥,其实现在GPGPU700的多个实例之间的通信和同步。在一个实施例中,GPU链路710与高速互连耦合以将数据发送到其它GPGPU或并行处理器并接收数据。在一个实施例中,GPGPU700的多个实例位于单独的数据处理系统中,并经由通过主机接口702可访问的网络设备进行通信。在一个实施例中,除了主机接口702以外或作为对主机接口702的备选方案,GPU链路710可被配置为实现到主机处理器的连接。[0169]虽然GPGPU700的所示配置可被配置为训练神经网络,但是一个实施例提供GPGPU700的可选配置,其可被配置用于部署在高性能或低功率推理平台内。在推理配置中,GPGPU700相对于训练配置包括计算集群706A-706H中的较少计算集群。此外,与存储器714A-714B相关联的存储器技术可在推理和训练配置之间不同。在一个实施例中,GPGPU700的推理配置可支持推理特定指令。例如,推理配置可提供对一个或多个8位整数点积指令的支持,所述一个或多个8位整数点积指令通常在用于部署的神经网络的推理操作期间使用。[0170]图8示出了根据实施例的多GPU计算系统800。多GPU计算系统800可包括经由主机接口开关804耦合到多个GPGPU806A-D的处理器802。在一个实施例中,主机接口开关804是将处理器802耦合到快速PCI总线的快速PCI开关设备,处理器802可通过该快速PCI总线与这组GPGPU806A-D通信。多个GPGPU806A-806D中的每个可以是图7的GPGPU700的实例。可经由一组高速点对点GPU到GPU链路816来互连GPGPU806A-D。高速GPU到GPU链路可经由专用GPU链路例如如图7中的GPU链路710连接到GPGPU806A-806D中的每个。P2PGPU链路816实现在GPGPU806A-806D中的每个之间的直接通信而不需要通过处理器802连接到的主机接口总线进行通信。在GPU到GPU业务指向P2PGPU链路的情况下,主机接口总线保持对系统存储器存取是可用的或例如经由一个或多个网络设备与多GPU计算系统800的其它实例通信。虽然在所示实施例中,GPGPU806A-806D经由主机接口开关804连接到处理器802,但是在一个实施例中,处理器802包括对P2PGPU链路816的直接支持,并可直接连接到GPGPU806A-806D。[0171]机器学习神经网络实现[0172]由本文所述的实施例提供的计算架构可被配置为执行特别适合于训练和部署用于机器学习的神经网络的并行处理的类型。神经网络可被一般化为具有曲线关系的功能的网络。如在本领域中公知的,存在在机器学习中使用的各种类型的神经网络实现。神经网络的一个示例性类型是如前所述的前馈网络。[0173]神经网络的第二示例性类型是卷积神经网络CNNXNN是用于处理具有已知的栅格状拓扑的数据例如,图像数据的专用前馈神经网络。因此,CNN通常用于计算视觉和图像识别应用,但它们也可用于其它类型的模式识别,例如语音和语言处理。在CNN输入层中的节点被组织到一组“滤波器”(由在视网膜中找到的感受域激发的特征检测器)内,并且每组滤波器的输出传播到在网络的连续层中的节点。针对CNN的计算包括将卷积数学操作应用于每个滤波器以产生那个滤波器的输出。卷积是由两个功能执行以产生第三功能的专业类型的数学操作,所述第三功能为这两个原始功能中的一个的修改版本。在卷积网络术语中,用于卷积的第一功能可被称为输入,而第二功能可被称为卷积内核。输出可被称为特征图。例如,用于卷积层的输入可以是定义输入图形的各种颜色分量的数据的多维阵列。卷积内核可以是参数的多维阵列,其中参数由用于神经网络的训练过程进行适配。[0174]递归神经网络RNN是包括在层之间的反馈连接的一系列前馈神经网络。RNN通过在神经网络的不同部分当中共享参考数据来实现序列数据的建模。RNN的架构包括循环。循环表示变量的当前值对在未来的时间它自己的值的影响,因为来自RNN的输出数据的至少一部分用作对处理在序列中的随后输入的反馈。这个特征由于语言数据可以具有的变量性质而使RNN对语言处理特别有用。[0175]下文所述的附图呈现示例性前馈、CNN和RNN网络以及描述用于分别训练和部署那些类型的网络中的每个的一般过程。将理解,这些描述是示例性的而非限制性为本文所述的任何特定实施例,并且总体而言,所示概念可通常应用于深度神经网络和机器学习技术。[0176]上文所述的示例性神经网络可用于执行深度学习。深度学习是使用深度神经网络的机器学习。在深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络,与只包括单个隐藏层的浅层神经网络不同。较深度的神经网络通常对于训练是更计算密集的。然而,网络的额外隐藏层实现多步骤模式识别,多步骤模式识别导致相对于浅层机器学习技术减小输出错误。[0177]在深度学习中使用的深度神经网络一般包括前端网络以执行耦合到代表数学模型的后端网络的特征识别,该数学模型可基于被提供到该模型的特征表示来执行操作例如对象分类、语音识别等)。深度学习使机器学习能够被执行而不需要针对模型执行的手工制作特征工程。替代地,深度神经网络可基于在输入数据内的统计结构或关联来学习特征。所学习的特征可被提供到可将检测到的特征映射到输出的数学模型。由网络使用的数学模型通常专用于待执行的特定任务,并且不同的模型将用于执行不同的任务。[0178]一旦构造神经网络,则学习模型就可应用于网络以训练网络来执行特定的任务。学习模型描述如何调节在模型内的权重以减小网络的输出错误。错误的后向传播是用于训练神经网络的常见方法。输入矢量被呈现给网络以用于处理。使用损失函数来比较网络的输出与期望输出,并针对在输出层中的每个神经元计算错误值。错误值然后向后传播,直到每个神经元具有大致表示它对原始输出的贡献的相关联的错误值为止。接着网络可使用算法例如随机梯度下降算法从那些错误中学习,以更新神经网络的权重。[0179]图9A-图9B示出了示例性卷积神经网络。图9A示出了在CNN内的各种层。如图9所示,用于对图像处理建模的示例性CNN可接收描述输入图像的红色、绿色和蓝色RGB分量的输入902。输入902可由多个卷积层例如卷积层904、卷积层906处理。来自多个卷积层的输出可以可选地由一组完全连接的层908处理。在完全连接的层中的神经元具有与在先前层中的所有激活的完全连接,如前面对前馈网络描述的。来自完全连接的层908的输出可用于根据网络产生输出结果。可使用矩阵乘法而不是卷积来计算在完全连接的层908内的激活。不是所有CNN实现都利用完全连接的层908。例如在一些实现中,卷积层906可以针对CNN生成输出。[0180]卷积层被稀疏地连接,这不同于在完全连接的层908中找到的传统神经网络配置。传统神经网络层被完全连接,使得每个输出单元与每个输入单元交互作用。然而,卷积层被稀疏地连接,因为域的卷积的输出被输入(而不是在域中的每个节点的相应状态值)到随后层的节点,如所示。与卷积层相关联的内核执行卷积运算,其输出被发送到下一层。在卷积层内执行的维数约减是使CNN能够缩放以处理较大的图像的一个方面。[0181]图9B示出了在CNN的卷积层内的示例性计算级。可在卷积层914的三个级中处理CNN的卷积层912的输入。这三个级可包括卷积级916、检测器级918和池级920。卷积层914可接着将数据输出到后继的卷积层。网络的最后一个卷积层可生成输出特征图数据或将输入提供到完全连接的层,例如以生成用于CNN的输入的分类值。[0182]卷积级916并行地执行几个卷积以产生一组线性激活。卷积级916可包括仿射变换,其为可被规定为线性变换加平移的任何变换。仿射变换包括旋转、平移、缩放和这些变换的组合。卷积级计算连接到在输入中的特定区域的函数例如神经元的输出,该特定区域可被确定为与神经元相关的局部区域。神经元计算在神经元的权重和神经元连接到的局部输入中的区域之间的点积。来自卷积级916的输出定义由卷积层914的后继级所处理的一组线性激活。[0183]线性激活可由检测器级918处理。在检测器级918中,每个线性激活由非线性激活函数处理。非线性激活函数增加总网络的非线性特性而不影响卷积层的感受域。可使用几种类型的非线性激活函数。一个特定的类型是修正线性单元ReLU,其使用被定义为fX=max0,x的激活函数,使得激活以零为阈值。[0184]池级920使用池函数,其用附近输出的概括统计量来代替卷积层906的输出。池函数可用于将平移不变性引入到神经网络内,使得对输入的小平移不改变池化的输出。对局部平移的不变性可能在输入数据中的特征的存在比特征的精确位置更重要的情形中是有用的。可在池级920期间使用各种类型的池函数,池级920包括最大池、平均池和12标准池。此外,一些CNN实现不包括池级。替代地,这样的实现代替相对于先前的卷积级具有增加的步幅的额外卷积级。[0185]来自卷积层914的输出可接着由下一层922处理。下一层922可以是额外的卷积层或完全连接的层908中的一个。例如,图9A的第一卷积层904可输出到第二卷积层906,而第二卷积层可输出到完全连接的层908的第一层。[0186]图10示出了示例性递归神经网络1000。在递归神经网络RNN中,网络的先前状态影响网络的当前状态的输出。可使用各种函数以各种方式构建RNN13RNN的使用通常以数学模型为主题以基于输入的先前序列来预测未来。例如,给定字的先前序列,RNN可用于执行统计语言建模以预测即将来临的字。所示RNN1000可被描述为具有接收输入矢量的输入层1002、用于实现递归函数的隐藏层1004、用于实现先前的状态的“记忆”的反馈机构1005和用于输出结果的输出层1006JNN1000基于时间步长来操作。RNN在给定时间步长处的状态基于先前时间步长经由反馈机构1005来影响。对于给定时间步长,隐藏层1004的状态由先前状态和在当前时间步长处的输入定义。在第一时间步长处的初始输入xl可由隐藏层1004处理。第二输入x2可由隐藏层1004使用在初始输入xl的处理期间确定的状态信息来处理。给定状态可被计算为stzfOJxt+Wn,其中U和W是参数矩阵。函数f通常是非线性的,例如双曲线正切函数Tanh或修正器函数的变形fx=max0,x。然而,在隐藏层1004中使用的特定数学函数可取决于RNN1000的特定实现细节来改变。[0187]除了所描述的基本CNN和RNN网络以外,在那些网络上的变化也可成为可能。一个示例RNN变形是长短期记忆LSTMRNN13LSTMRNN能够学习可能对处理语言的较长序列必要的长期依赖性。在CNN上的变形是卷积深度信念网络,其具有与CNN类似的结构并以与深度信念网络类似的方式被训练。深度信念网络DBN是由随机random随机)变量的多个层组成的生成式神经网络。可使用贪婪的无监督学习来逐层训练DBN13DBN的学习的权重可接着用于通过确定用于神经网络的权重的最佳初始集合来提供预训练神经网络。[0188]图11示出了深度神经网络的训练和部署。一旦给定网络被构造用于任务,则使用训练数据集1102来训练神经网络。开发了各种训练框架1104来实现训练过程的硬件加速。例如,图6的机器学习框架604可被配置为训练框架604。训练框架604可钩到未训练的神经网络1106内,并使用本文所述的并行处理资源使未训练的神经网络被训练以生成经训练的神经网络1108。[0189]为了开始训练过程,可随机地或通过使用深度信念网络来预训练而选择初始权重。然后以监督或无监督的方式来执行训练循环。[0190]监督学习是一种学习方法,其中训练作为中间操作被执行,例如当训练数据集1102包括与输入的期望输出配对的输入时,或其中训练数据集包括具有已知输出的输入并且神经网络的输出手动地被分级。网络处理输入并比较所得到的输出与一组预期或期望输出。然后通过系统回传错误。训练框架1104可调节以调节控制未训练的神经网络1106的权重。训练框架1104可提供工具以监控未训练的神经网络1106集中于如下模型的良好程度,所述模型适合基于已知的输入数据来生成正确的答案。当网络的权重被调节以改进由神经网络生成的输出时,训练过程重复地发生。训练过程可继续,直到神经网络达到与经训练的神经网络1108相关联的统计上期望的精度为止。经训练的神经网络1108可接着被部署来实现任何数量的机器学习算法。[0191]无监督学习是一种学习方法,其中网络试图使用无标签的数据来训练本身。因此,对于无监督学习,训练数据集1102将包括输入数据而没有任何相关联的输出数据。未训练的神经网络1106可学习在无标签的输入内的编组,并可确定单独的输入如何与总数据集有关。无监督训练可用于生成自组织图,其为能够执行在减小数据的维数时有用的操作的一种类型的经训练的神经网络1107。无监督训练也可用于执行异常检测,其允许识别输入数据集中的从数据的正常模式偏离的数据点。[0192]也可采用在监督和无监督训练上的变形。半监督学习是一种技术,其中训练数据集1102包括同一分布的带标签和无标签的数据的混合。递增学习是监督学习的变形,其中输入数据连续地用于进一步训练模型。递增训练使经训练的神经网络1108能够适合于新数据1112,而在初始训练期间不忘记在网络内灌输的指示。[0193]不管是监督的还是无监督的,用于特别的深度神经网络的训练过程对于单个计算节点可能是计算上太密集的。不是使用单个计算节点,计算节点的分布式网络可用于加速训练过程。[0194]图12是示出了分布式学习的方框图。分布式学习是使用多个分布式计算节点来执行神经网络的监督或无监督训练的训练模型。分布式计算节点中的每个可以包括一个或多个主机处理器和通用处理节点(例如,如在图700中的高度并行的通用图形处理单元700中的一个或多个。如所示,分布式学习可由模型并行1202、数据并行1204或模型和数据并行1204的组合来执行。[0195]在模型并行1202中,在分布式系统中的不同计算节点可针对单个网络的不同部分执行训练计算。例如,神经网络的每层可由分布式系统的不同处理节点训练。模型并行的益处包括用于缩放到特别大的模型的能力。对与神经网络的不同层相关联的计算进行划分能够实现非常大的神经网络的训练,其中所有层的权重将不适合于单个计算节点的记忆。在一些实例中,模型并行可能在执行大神经网络的无监督训练时是特别有用的。在模型并行的另一示例中,在神经网络模型的一层或多层中的计算可在跨越特征图维数的多个计算节点中进行划分以减小每节点模型参数的尺寸。[0196]在数据并行1204中,分布式网络的不同节点具有模型的完整实例,并且每个节点接收数据的不同部分。然后组合来自不同节点的结果。虽然用于数据并行的不同方法是可能的,但是数据并行训练方法都需要组合结果并使在每个节点之间的模型参数同步的技术。用于组合数据的示例性方法包括参数平均化和基于更新的数据并行。参数平均化在训练数据的子集上训练每个节点,并将全局参数(例如权重、偏置设置为来自每个节点的参数的平均。参数平均化使用维持参数数据的中心参数服务器。基于更新的数据并行类似于参数平均化,除了不是将参数从节点传送到参数服务器而是对模型的更新被传送以外。此外,可以用分散的方式来执行基于更新的数据并行,其中更新被压缩并在节点之间被传送。[0197]组合的模型和数据并行1206可例如在分布式系统中实现,在所述分布式系统中每个计算节点包括多个GPU。每个节点可具有模型的完整实例,在每个节点内的单独GPU用于训练模型的不同部分。[0198]分布式训练相对于在单个机器上的训练增加了开销。然而,本文所述的并行处理器和GPGPU中的每个可以实现各种技术以减小分布式训练的开销,所述各种技术包括实现高带宽GPU到GPU数据传送和加速的远程数据同步的技术。[0199]示例性机器学习应用[0200]机器学习可应用于解决各种技术问题,包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉传统上是机器学习应用的最活跃的研究领域中的一个。计算机视觉的应用范围从复制人类视觉能力例如,面部识别到创建视觉能力的新类另IJ。例如,计算机视觉应用可被配置为从来自在视频中可见的物体中引起的振动中识别声波。并行处理器加速的机器学习使用比先前可行的明显更大的训练数据集使计算机视觉应用能够被训练,并使用低功率并行处理器使推理系统能够被部署。[0201]并行处理器加速的机器学习具有自主驾驶应用,包括车道和道路标志识别、障碍物避免、导航和驾驶控制。加速的机器学习技术可用于基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文所述的并行处理器可实现用于自主驾驶解决方案的日益复杂的神经网络的快速训练并实现在适合于集成到自主车辆内的移动平台中的低功率推理处理器的部署。[0202]并行处理器加速的深度神经网络使机器学习方法实现到自动语音识别(ASR。ASR包括创建给定输入随机序列而计算最可能的语言序列的函数。使用深度神经网络的加速的机器学习实现代替先前用于ASR的隐马尔科夫HMM和高斯混合模型GMM。[0203]并行处理器加速的机器学习也可用于加速自然语言处理。自动学习过程可利用统计推理算法来产生对错误或不熟悉的输入是鲁棒的模型。示例性自然语言处理器应用包括在人类语言之间的自动机器翻译。[0204]用于机器学习的并行处理平台可划分为训练平台和部署平台。训练平台通常是高度并行的,并包括优化以加速多GHJ单节点训练和多节点多GPU训练。适合于训练的示例性并行处理器包括图7的高度并行的通用图形处理单元700和图8的多GPU计算系统800。相反,所部署的机器学习平台通常包括适合于在产品(例如,摄像机、自主机器人和自主车辆)中使用的较低功率并行处理器。[0205]图13示出了适合于使用经训练的模型来执行推理的示例性推理片上系统(SOCISOOt3SOC1300可集成处理部件,包括媒体处理器1302、视觉处理器1304、GPGPU1306和多核处理器1308A0C1300可以此外包括片上存储器1305,其实现由每个处理部件可访问的共享片上数据池。处理部件可针对低功率操作进行优化以实现部署到包括自主车辆和自主机器人的各种机器学习平台。例如,SOC1300的一个实现可用作用于自主车辆的主控制系统的一部分。在SOC1300被配置为在自主车辆中使用的场合,SOC设计和被配置用于与部署管辖权的相关功能安全标准兼容。[0206]在操作期间,媒体处理器1302和视觉处理器1304可共同工作以加速计算机视觉操作。媒体处理器1302可实现多个高分辨率例如4K、8K视频流的低延迟解码。解码的视频流可被写到片上存储器1305中的缓冲器。视觉处理器1304可接着解析解码的视频并使用经训练的图像识别模型在处理帧的准备中对解码的视频的帧执行预备处理操作。例如,视觉处理器1304可加速用于对高分辨率视频数据执行图像识别的CNN的卷积运算,而后端模型计算由GPGPU1306执行。[0207]多核处理器1308可包括控制逻辑以有助于由媒体处理器1302和视觉处理器1304执行的数据传送和共享存储器操作的排序和同步。多核处理器1308也可以用作应用处理器以执行可利用GPGPU1306的推理计算能力的软件应用。例如,可在多核处理器1308上执行的软件中实现导航和驾驶逻辑的至少一部分。这样的软件可直接向GPGPU1306发出计算工作负载,或计算工作负载可以被发出到多核处理器1308,其可将那些操作的至少一部分卸载到GPGPU1306。[0208]GPGPU1306可包括计算集群,例如在高度并行的通用图形处理单元700内的计算集群706Α-706Η的低功率配置。在GPGPU1306内的计算集群可支持被特别优化以对经训练的神经网络执行推理计算的指令。例如,GPGPU1306可支持用于执行低精度计算例如,8位和4位整数矢量操作)的指令。[0209]用于可缩放分布式机器学习的抽象层[0210]目前,开发利用分布式深度学习的应用的数据科学家需要明确地实现在计算节点之间的通信系统。实现用于分布式深度学习的基本通信系统需要分布式或联网计算节点通信技术的一些知识,包括实现这样的技术所需的库。例如,为了实现分布式深度学习模型,例如数据并行、模型并行或混合并行(混合的数据和模型并行),应用开发者可能需要使用低级通信库例如消息传递接口(MPI库来明确地构造通信基础设施。接着,应用开发者将需要确定要传送的数据的特定单元和将传输和接收这样的信息的特定节点。因为深度学习应用开发者可能不是在分布式计算基础设施的构造中的特定领域专家,因此,很多最佳的实践和优化可能不被包括在针对给定深度学习应用开发的通信实现中。[0211]可使用各种并行模式例如,数据并行、模型并行或数据和模型并行的混合来实现分布式机器学习,如图12所示。如关于图12所述的,数据并行针对每个计算节点使用相同的模型,每个节点处理数据的不同部分。模型并行针对每个计算节点使用相同的数据,模型在计算节点当中划分。[0212]为了实现通信,多种类型的低级通信模式用于在节点之间传送数据。下面在表5中示出所使用的低级通信模式。[0213]表5-低级通信操作[0215]图14A-图14E示出了根据本文所述的实施例的在多个计算节点执行的分布式机器学习计算操作期间使用的通信模式。图14A示出了使用数据并行的针对机器学习计算的数据传送。图14B示出了使用模型并行的针对分布式机器学计算的数据传送。图14C示出了使用混合并行的在多个节点上的机器学习计算的划分。图14D示出了在多个节点和多个层上使用混合并行的分布式机器学习计算。图14E示出了可用于分布式机器学习的一组示例性消息发送模式操作。在图14A-图14E的每个中,输入数据1402由具有一组权重1404的机器学习模型处理以产生一组激活1408或部分激活1406。[0216]如图14A所示,可实现数据并行,其中输入数据1402沿着小批量维度划分,并且同一模型在节点中进行复制。小批量在几个计算节点中进行划分,每个节点负责使用在小批量中的样本的子集关于所有模型参数来计算梯度。在每个节点上独立地执行前向传播。在一个实施例中,在后向通过(pass期间只执行一次通信以计算关于可学习的参数的梯度的平均。allreduce全约减操作1405用于针对下一前向通过更新每层的权重。在一个实施例中,可启用分布式权重更新,其中reduce_scatter约减_分散)用于在随机梯度下降被执行之前计算梯度的平均值,以及allgather操作用于在随机梯度下降之后使权重在节点上同步。[0217]如图14B所示,可实现模型并行,其中模型或一组权重在多个节点中划分。通常,模型并行执行模型的不同部分,对于同一批示例,同时在不同的节点上执行计算。对于模型并行,输入数据也被划分例如沿着通道维度),如图14B所示。使用所示方法,执行约减操作以对激活进行加和来得到实际输出,并接着使激活分散,用于在针对下一层计算激活时使用。可执行reduce_scatter1407操作以在单个通信操作中传送数据。在后向通过中,执行allgather操作以组合在每个节点上计算的梯度带。[0218]如图14C所示,可执行混合并行,其中在激活和权重上执行分割以最小化倾斜的矩阵。对于神经网络的层,输入数据1402、权重数据1404和或激活数据1406被划分并在多个计算节点(例如节点〇-节点3上分布。节点0接收输入数据1402A和权重数据1404A的第一块。在节点〇处执行计算操作以生成第一部分激活1406A。同样,节点1接收输入数据1402B和权重数据1404B的第二块。在节点1处执行计算操作以生成第二部分激活1406B。节点2可对第三输入数据1402C和权重数据1404C执行计算操作以生成第三部分激活1406C。节点3可对第四输入数据1402D和权重数据1404D执行计算操作以生成第四部分激活1406D〇[0219]图14D示出了针对从神经网络的给定层第N-I层到神经网络的后继层层N的部分激活数据1406A-1406B的传送。经由多个节点(节点0、节点1,基于数学操作例如卷积对输入数据1402A-1402B和权重数据1404A-1404B的应用来生成一组部分激活1406A-1406B。例如,在一个实施例中,使用reduce_scatter操作1410,其对来自多个节点的层N-I的部分激活1406A-1406B执行约减操作,并将结果分散到多个节点作为激活,用于在神经网络的层N中使用。[0220]图14E示出了用于传送用于机器学习操作的神经网络的分布式训练的数据的示例性通信操作。低级消息发送库用于实现在神经网络的分布式训练期间针对权重和激活数据的数据传送。可通过对后继层执行连续的前向计算操作以使激活数据前向传播1426通过神经网络来以分布式方式训练具有N个层1421A、1421B、1421N例如层1、层2到层N的示例性神经网络。在前向传播1426期间,例如,Alltoall1409通信操作用于将激活数据从第一层1421A传送到后继层1421B,其中第一层和后继层是隐藏层或非输出层。Alltoall1409操作将不同的数据从生成激活或部分激活数据的计算节点传送到所有可用的接收机,所述接收机使用激活数据作为用于对后继层进行操作的输入数据。当传送数据到最终层例如层N时,执行关于图14B所述的约减分散操作1410。在后向传播1428期间,执行分布式随机梯度下降以生成更新的权重数据。针对层N执行初始Allreduce操作1412,以及执行一组AlIreduce操作1411A、1411B、141IN以针对下一前向通过更新每层的权重。Allreduce操作是约减操作,其结果被广播或传送到在计算组中的所有过程的接收缓冲器。后向传播1428也可包括AlIgather1413和AlItoall1414通信操作。对于AlIgather操作1413,从所有任务聚集数据,并且将组合的数据分配到所有任务。对于Alltoall操作1414,来自所有过程的数据被传送到所有过程。[0221]可使用任何低级消息发送库(例如,MPI、gRPC或zeroMQ来实现执行用于机器学习的分布式计算操作所需的数据传送。然而,在没有多处理器通信库的领域级专门技术的情况下实现示例性通信操作可能很难。此外,将这些操作缩放为非常大量的节点可能很难。在没有分布式计算技术的领域特定知识的情况下,实现可处理在数百或数千个节点之间的通信的用于机器学习的可缩放通信系统可明显扩展针对机器学习应用的开发时间。[0222]本文所述的实施例提供各种技术以使针对深度学习应用的分布式通信系统细节抽象化。在一个实施例中,提供机器学习缩放库MLSL,其使深度学习应用开发者能够开发分布式深度学习应用而不需要用于实现多节点深度学习所需的特定通信细节的知识。针对深度学习应用的应用开发者可使用深度学习领域特定术语来指定由应用使用的分布式计算系统的类型,并且由本文所述的实施例提供的库技术可实现用于实现所请求的分布式计算系统所需的特定基本通信方法。[0223]图15A-图15C示出了由本文所述的实施例提供的机器学习缩放库的架构细节。图15A示出了示例性机器学习架构堆栈1500。图15B示出了MLSL架构1511的细节。图15C示出了由实施例实现的示例性通信端点。[0224]图15A示出了示例性机器学习架构堆栈1500,其可以是图6的机器学习软件堆栈600的变形。机器学习架构堆栈1500包括多个软件和硬件层,其范围从由传感器的阵列提供的输入数据1502到执行各种计算、存储或通信操作的硬件1514元件。示例性机器学习架构堆栈1500的每层可以是从较高层隐藏实现细节的不透明抽象层,同时使用由较低层提供的功能来实现由较高层所需的函数。[0225]输入数据1502被提供到应用的一层1504。在一个实施例中,输入数据1502是多模态输入,包括但不限于视频和或图像数据、来自多个传感器的数据和外部信号数据。应用1504包括多模态融合和决策应用,其可处理输入以实现机器学习任务,例如,图像理解、视频摘要、语音和自然语言处理、路径规划、导航或本文所述的任何其它机器学习实现。应用1504与一个或多个机器学习框架1506例如,但不限于Caffe、Theano、Torch、TensorFlow或基于机器学习框架的任何其它脚本)通信,以实现机器学习特定操作。机器学习框架1506可使用任何数量的神经网络拓扑1508包括但不限于0~18~11^11、一般深度神经网络和加强学习网络)中的一个来实现要执行的机器学习操作。机器学习框架1506经由一个或多个构造块来实现神经网络拓扑1508。示例性构造块1510包括单精度浮点通用矩阵乘法SGEMM块、卷积构造块、快速傅立叶变换Winograd块、单源最短路径SSSP计算块、稀疏矩阵-矩阵乘法SpGEMM块和由本文所述的实施例提供的机器学习缩放库MLSL1511。构造块1510中的每个可以实现多种算法1512以使由框架1506请求的计算操作能够实现神经网络拓扑1508。算法1512包括优化以增强统计和架构效率,实现云部署,以及实现缩放为大量节点。在一个实施例中,MLSL1511包括算法1512以实现对大量节点的机器学习操作的缩放。在一个实施例中,可经由可由硬件1514的一个或多个元件加速的软件库来实现构造块1510。在一个实施例中,构造块1510的至少一部分可在硬件1514内实现。例如,基于FPGA或ASIC的加速器可包括定制逻辑以实现MLSL1511的部分或一个或多个GEMM库。[0226]硬件1514的各种部件可用于实现机器学习架构堆栈1500的较高层的功能。硬件1514的部件包括但不限于CPU或被分派有执行计算和或操作系统相关计算的任务的另一专用处理器。硬件1514还包括很多基于集成核心MIC或通用GPU的并行处理系统。在一些实施例中,硬件1514包括基于FPGA或ASIC的深度学习加速器。硬件1514的结构互连部件用于实现在各种部件和高带宽易失性或非易失性存储器之间的高速通信。易失性存储器技术可包括本文所述的图形存储器技术中的任一个,包括HBM和GDDR存储器。非易失性存储器技术可包括闪存,包括3DNAND闪存或其它存储器技术,例如3DXpoint存储器。[0227]图15B示出了根据实施例的MLSL架构1511的细节。MLSL架构1511包括具有机器学习特定抽象1513以及非机器学习特定抽象1515的抽象层。抽象与驱动基本消息发送库1519的通信模块1517进行接合。消息发送库1519使用优化的低级通信例程以通过高性能通信结构1521来发送数据。[0228]MLSL架构1511使机器学习软件的开发者能够使用机器学习特定抽象1513来开发可缩放的机器学习应用。在一个实施例中,机器学习特定抽象1513使应用开发者能够使用机器学习领域特定知识来驱动神经网络层的计算操作的可缩放性能。机器学习抽象1513使应用能够以对基本架构透明的方式被开发,使机器学习应用能够自动适应于任何数量的硬件1514元件,包括多种类型的计算和结构元件。除了机器学习特定抽象1513以外,一组非机器学习特定抽象1515也可由MLSL架构1511提供。非机器学习特定抽象1515使机器学习应用的开发者能够在抽象的较高级别处定义应用的一个或多个非机器学习细节,例如与机器学习无关的一个或多个实现特定细节或操作系统细节。[0229]在一个实施例中,机器学习特定抽象1513实现针对多种类型的并行(例如数据、机器、混合)的神经网络层适当支持。机器学习特定抽象1513也使层到层通信抽象能够允许开发者容易实现用于不同的层类型和并行的通信模式。使用机器学习特定技术用机器学习特定抽象1513来定义不同的层类型和并行,并且用于那些层类型的通信经由通信模块1517、消息发送库1519和高性能通信结构1521来实现。机器学习特定抽象1513还实现在所定义的神经网络层上的智能消息调度,同时对在应用级处实现机器学习技术所需的数据布局和变换抽象化。[0230]在一个实施例中,通信模块1517包括用于驱动基本消息发送库1519的逻辑。通信模块1517包括各种优化以使网络能够有效地被驱动,同时在用于执行分布式机器学习的各种计算节点之间发送机器学习数据。通信模块1517包括用于优化网络带宽并用于实现低延迟通信的逻辑。机器学习特定抽象1513和或非机器学习特定抽象1515可指定或证明用于使应用开发者能够指定被分派有管理分布式通信的任务的处理器资源的接口。在一个实施例中,可指定特定的处理器。在一个实施例中,指定与通信相关联的处理器的数量。在一个实施例中,可指定在计算和通信资源之间的混合。在一个实施例中,通信模块1517包括用于自适应地指派处理器核心以用于在驱动和执行针对通信模块1517和或消息发送库1519的操作时使用的逻辑。在一个实施例中,通信模块1517可以自适应地指派用于通信的处理资源而没有来自机器学习特定抽象1513或非机器学习特定抽象1515的明确指示。在一个实施例中,通信模块1517可以自适应地调节或分配处理资源以试图完全渗入可用的网络资源以试图最小化在分布式系统内的通信的延迟影响。例如,如果分布式计算系统的总吞吐量将增加,则如果通信模块1517确定高性能通信结构1521不完全充满数据,则额外的处理器或处理器核心可被指派来执行网络任务。在一个实施例中,被指派用于驱动消息发送库1519的计算资源的数量可基于高性能通信结构的带宽来改变。对于较高带宽结构,可能需要较大的计算资源来使网络饱和。可经由任何数量的高速网络连接技术包括但不限于以太网、InfiniBand、OmniPath互连)或经由点对点互连的网络(例如,NvLink来实现高性能通信结构1521。[0231]在一个实施例中,通信模块1517包括用于通过实现在处理节点之间的非同步通信来确保分布式计算操作的前向进展的逻辑。由通信模块1517实现的非同步通信允许重叠计算和通信操作,其有效地交错以优化技术和通信效率和吞吐量。在一个实施例中,通信模块1517也支持优先的通信通道以实现争用通信请求的优先解决。[0232]消息发送库1519使用优化的低级通信例程以通过高性能通信结构1521来发送数据。MLSL架构1511相对于基本消息发送库1519和高性能通信结构1521是不可知的。在一个实施例中,消息发送库是基于MPI的库。在这样的实施例中,使用MPI函数(例如MPI_AlItoalI、MPI_A1Ireduce、MPI_A1Igather等)来实现由机器学习应用使用的通信模式。在一些实施例中,gRPC或zeroMQ库和相关联的函数用于消息发送。在一个实施例中,也可使用NCCL聚合通信例程。NCCL提供通信例程,例如all-gather、约减和广播以加速在多个GPGPU上的多GPU机器学习训练。[0233]图15C示出了由本文所述的实施例实现的示例性通信端点。关于MPI库示出了由这些实施例提供的概念,但是所述技术不限于MPI实现。在常规通信器1525中,过程与等级或另一通信ID相关联。该过程可支持针对多个线程的通信,每个线程与过程的等级或标识符相关联。本文所述的实施例利用网络端点来实现在分布式计算系统的各种计算节点之间的通信。每个端点通信器1530允许在进行、通信等级或ID和使用用于通信的端点的各种线程之间的灵活布置。端点通信器1530可动态地被配置,使得进程可与多个等级相关联,并且每个等级可与单独的进程相关联。在这样的配置中,每个线程可经由多处理器消息发送系统来发送数据而不考虑在等级当中的线程争用。可选地,线程可与多个等级相关联,使单个线程能够具有多个通信通道。[0234]在一个实施例中,端点通信器1530的一个或多个实例经由机器学习特定抽象1513来明确地规定。在一个实施例中,端点通信器1530的实例的数量与被指派来执行网络通信的核心的数量直接有关。在一个实施例中,机器学习特定抽象1513实现编程器,以使用机器学习特定技术来指定网络的类型和所需的并行的程度,并且MLSL架构1511可动态地构造通信基础设施,包括被指派给联网操作的核心的数量和通信端点1530的相关联的数量。[0235]在各种实施例中,图15C的通信系统可明确地使用开发者定义的变量被构造或基于由应用开发者定义的机器学习基础设施被动态地构造。在一个实施例中,机器学习应用可定义执行针对机器学习应用的计算操作的多个应用过程1536JLSL1534可将接口暴露于应用过程1536,其实现可缩放到非常大数量的计算节点的通信系统。在这样的配置中,针对应用过程1536例如过程0、过程1、过程2中的每个支持多个通信等级或标识符,在一个实施例中,应用过程1536中的每个可以是MPI进程。一组端点进程1532可由MLSL1534初始化,单独的端点进程被定义为支持在应用进程1536内的进程的每个等级或标识符。在一个实施例中,机器学习特定领域意识可与通信操作的全局视图组合以确定要使用多少端点。端点过程1532的数量可由MLSL1534基于通信需要来动态地进行缩放。[0236]图16A-图16B示出了由本文所述的实施例实现的分布式机器学习训练。图16A示出了使用多个节点来执行的针对神经网络的训练过程。MLSLAPI可用于定义包括多个节点的分布式训练系统。在一个实施例中,多个节点可包括第一节点1610节点0和第二节点1620节点1。每个节点1610、1620被配置为执行前向计算操作1612、1622和后向计算操作1614、1624。对于后向计算1614、1624,计算权重增量1616、1625并执行随机梯度下降1618、1628以产生权重值更新。由MLSLAPI实现的通信操作被示为执行在表6中所示的操作的字母数字块。[0237]表6-MLSL通信操作[0239]如图16A所示,MLSLAPI使用由第一通信块和第二通信块一并处理的分布式前向计算1612、1622来实现前向传播,第一通信块在开始前向计算操作之前等待完成针对进入数据的传递,而第二通信块开始针对计算数据的传递。例如,开发者可使用第一MLSLAPI命令节点〇[lb]来在第一节点1610处配置针对第一层的前向计算操作1612以等待完成接收激活数据的通信,激活数据将被用作前向计算1612的输入数据。当激活数据的传递完成时,前向计算1612自动开始。当完成前向计算1612时,第二MLSLAPI命令节点0[la]可用于开始激活数据的传递。从第一节点1610输出的所传递的激活数据是由第一层生成的激活数据,并用作具有在第二节点1620处执行的前向计算1622的第二层的输入数据。在第二节点1620处的前向计算1622等待以在开始计算操作节点I[Ib]之前完成激活数据的传递,并在完成时开始传递由前向计算1622生成的激活数据节点I[Ib]。[0240]在一个实施例中,MLSLAPI使用由第三实现MLSLAPI的通信块节点I[2b]和第四实现MLSLAPI的通信块节点I[2a]—并处理的分布式后向计算1624、1612来实现后向传播,第三实现MLSLAPI的通信块等待以在开始后向计算1624之前完成进入激活梯度的传递,而第四实现MLSLAPI的通信块开始所计算的激活梯度的传递。以类似的方式,MLSLAPI实现用于权重增量计算1626、1616的权重梯度和经由分布式随机梯度更新1628、1618确定的已更新的权重的发送和接收。[0241]如图16B所示,每个节点1610、1620也可用于针对神经网络的多个层执行计算操作。在一个实施例中,图16A所示的前向计算操作1612、1622被执行为在多个层层N、层N+1上的多个计算操作1612A-1612B、1622A-1622B。同样,图16A所示的后向计算操作1624、1614可被执行为多个计算操作1624A-1624B、1614A-1614B。对于每个节点1610、1620,MLSLAPI可使激活1602、1604能够在每个节点上的多个神经网络层之间被传送,而已更新的权重1606、1608在后向计算操作16244-16248、16144-16148之后被分发。[0242]在一个实施例中,MLSLAP实现使用不同类型的并行以用于同一神经网络的不同层。并行的选择可由MLSL基于层特性例如可学习的参数的数量和激活的数量来自动做出。基于针对层确定的并行,也可确定所需通信的类型。例如,当前一层使用数据并行且接下来的层使用模型并行时,调用多对多通信模式以重新分配数据。通常,通信模式和情形的变化很重要。通过抽象化通信细节,MLSLAPI可明显简化机器学习框架开发者的生活。可经由MLSLAPI来实现各种机器学习结构。[0243]用于机器学习的硬件实现的点对点原语[0244]加载和存储操作足以实现在软件中的较高阶分布式共享存储器操作的实现。然而,仅仅加载和存储原语可能不足以实现用于对点对点通信的适当硬件解决方案。本文所述的实施例可扩展在本领域中已知的简单的点对点原语以实现较丰富的语义,例如但不限于对以下的支持远程原子学、远程过程调用RPC、加载与聚集列表、存储与分散列表、以及存储与通知包括与通信的同步),以允许在节点之间和在GPGPU、MIC或在节点内的并行处理器卡之间的更有效的通信和同步,特别是当点对点通信协议(例如,NVLink互连协议的版本在使用中时。[0245]图16C示出了根据实施例的使用点对点原语的节点间通信。在一个实施例中,计算集群1630可在多个节点上执行分布式神经网络训练过程。对于数量为P的节点,每个节点1631A-1631P例如节点1到节点P可执行如本文所述的前向传播和后向传播。在一个实施例中,每个节点处理层1632A-1632P的各个组,每节点一个组,每组具有层L〇-Ln。在针对神经网络的前向传播FP和后向传播BP操作期间,可在节点之间交换与层1632A-1632P相关联的数据。数据交换的精确模型可基于在使用中的并行模型(例如数据、模型、混合等来改变。例如且在一个实施例中,每个节点1631A-1631P可具有神经网络模型的副本,并且不同的数据数据可被提供到每个节点。权重增量1634可由每个节点1631A-1631P生成。在一个实施例中,可执行allreduce操作,其中求和单元1636在接收缓冲器中接收一组权重增量,并生成权重增量数据1637的和。求和单元1636可以是节点1631A-1631P中的任一个或单独的控制节点。随机梯度下降逻辑单元SGD1638可生成一组新权重1640,其然后被发送到每个节点。[0246]在一个实施例中,为了有利于在节点1631A-1631P之间的信息的交换,每个节点可包括硬件实现的点对点原语单元PPP1634A-1634P以使节点能够以同步方式交换数据。本文所述的点对点技术在如在图15B中的通信模块1517内实现,通信模块1517可存在于每个节点内。在每个节点内的点对点原语逻辑可与一组发射缓冲器ΤΧ1641A-1641P和接收缓冲器RX1642A-1642P相关联。为了在节点I1631A和节点P1631P之间交换数据,节点P的点对点原语单元1634P可向节点1发出请求以将数据的特定块发送到节点P。针对数据的块的相关性一旦满足,例如当与数据相关联的计算操作完成时,节点I1631A然后就将数据的块发送到节点P1631P例如经由发射缓冲器1641A。节点P1631P可继续执行其它操作,直到被节点I1631A通知为止。针对所请求的数据的计算操作一旦完成,节点I1631A就可在节点P上执行对接收缓冲器1642P的远程写入以写入所请求的数据。在一个实施例中,节点I1631A可通知节点P1631P:写入已完成。在一个实施例中,节点P1631P可监控被提供给节点I1631A的接收缓冲器1642P的地址以用于用于存储器更新,并且一旦节点P1631P向接收缓冲器1642P通知:存储器写入出现,就复制出被写入的存储器。[0247]各种基本方法可用于实现点对点通信。在一个实施例中,可使用远程过程调用使节点能够在不同的节点上远程地执行逻辑操作。远程逻辑可监控与接收节点所需的数据相关联的地址空间,并且一旦计算操作完成就发起从发射节点的传送。除了具有存储与通知和远程过程调用支持以外,还可实现各种额外的原语,如上所述,其中这样的原语包括但不限于远程原子、加载与聚集列表、存储与分散列表、以及其它类型的同步通信。[0248]例如,在一个实施例中,可执行从节点I1631A到节点P1631P的远程原子存储,使得在节点1的存储器中的数据存储到在节点P中的存储器,作为单个、不可分割的操作。可使用由节点1和节点P的接口逻辑支持的硬件原语来执行原子存储。节点1可将消息发送到节点P以实现原子存储,其可由节点P的接口逻辑接收。在节点P内的接口逻辑可接着锁定在节点P的存储器内的存储器地址,执行存储操作,并在存储器地址上释放锁,使节点P的存储器能够用从节点1供应的数据自动更新。在一个实施例中,这样的操作可以完全在节点的结构接口逻辑内执行。在各种实施例中,原语操作执行加载与聚集列表、存储与聚集列表或在节点的接口逻辑内的其它类型的同步通信操作。[0249]在布置在网、环面和超立方体中的计算节点中,在每个节点处的路由器允许消息沿着最有效的路径被引导到在未直接连接的节点之间的消息的目的地。本文所述的实施例提供可被配置为在间接连接的节点之间路由存储器写入或消息的结构互连逻辑。不是使用节点标识符,在一个实施例中,结构互连逻辑可基于与消息、写入或待分程传递的分组相关联的目标存储器地址来路由数据。这样的技术可以实现在硬件中的有效分布式存储器系统,特别是对于点对点结构互连。[0250]图17A示出了根据实施例的多节点计算系统1700。多节点计算系统700的每个节点类似于图8的多GPU计算系统SOOt3GPGPU806A-806D中的每个经由一组P2PGPU链路816来互连。GPGPU1706A-1706D中的每个经由P2PGPU链路1716来互连。GPGPU1706A-1706D中的每个可以经由主机接口开关1704与处理器1702通信。GPGI3U806A-806D和GPGPU1706A-1706D不直接互连。然而,GPGPU806B可经由P2PGPU桥链路1708与GPGPU1706A通信。在一些现有实现中,为了在间接连接的GPGPU之间(例如,在GPGPU806A到GPGPU1706D之间)传送数据,可能需要多个手动传送。本文所述的实施例实现在经由点对点链路连接的GPGPU之间的通信的自动路由。在一个实施例中,自动路由通过将节点映射到分布式虚拟存储器系统来执行。[0251]图17B示出了根据实施例的具有分布式虚拟地址的点对点网络。在一个实施例中,一组节点1721节点1-3可参与多层神经网络1722层0-3的分布式训练。可执行协商,使得在每个节点内的存储器地址与在分布式虚拟地址空间1730内的虚拟地址相关联。在一个实施例中,在每个节点中的特定物理地址范围映射到与节点相关联的虚拟地址,使得在每个节点中的同一物理地址映射到分布式虚拟地址空间1730。在节点之间交换分布式虚拟地址映射,使得每个节点知道用于每个其它节点的地址范围。例如,节点1可以在第一存储器地址范围1723[OxlOOOto0x1500]内被分配有存储器地址。节点2可以在第二存储器地址范围1725[0x2000to0x2500]内被分配有存储器地址。节点3可以在第三存储器地址范围1727[0x2000to0x3500]内被分配有存储器地址。节点1可通过向节点3发出针对数据的请求并向节点3提供在第一地址范围1723内的地址来请求来自节点3的数据。节点1知道节点3具有[0x3000to0x3500]的地址范围,并在存储器中的由下列公式定义的地址处具有接收缓冲器:基于节点的地址+接收缓冲器偏移。节点1可请求到节点3处的接收缓冲器的同步写入,其中写入是请求在节点3的地址空间(例如第三地址范围1727内的给定读取地址处的数据的读取的消息。在节点1上的结构接口可基于写入地址来确定去往节点3的消息。结构接口可接着确定,为了与节点3通信,消息可经由节点2被路由。节点1可接着经由节点2请求中继。在节点2上的结构接口基于目的地地址可确定消息去往节点3并将消息中继到在节点3中的接收缓冲器。这样的技术可明显提高涉及在所有节点之间的通信交换的通信操作例如,allreduce或allgather操作)的效率。[0252]细粒度计算通信[0253]本文所述的实施例提供用于表达计算和通信操作的统一API连同使计算和通信操作能够与细粒度方式重叠的相应的实现。细粒度重叠计算向机器学习计算框架提供益处并帮助在多卡和或多节点中实现更高的计算和通信效率。例如并且在一个实施例中,在深度学习训练后向传播期间,在权重更新操作中使用数据并行。如在上面所述,例如在图16A中后向传播包括权重增量计算、节点间卡间权重增量通信和使用随机梯度下降的所更新的权重计算。使用不同的计算和通信API和实现的实现可能不能够实现可在计算节点或并行处理器卡内和在计算节点或并行处理器卡上利用的最大数量的并行,因为那些操作以固定顺序且在粗粒度级处顺序地执行。本文所述的实施例通过实现在细粒度细节处计算和通信操作的调度和执行来实现改进的计算和通信并行。通过实现细粒度计算和通信执行,可实现更有效的计算和通信重叠,实现计算和通信资源的增加的并行和改进的利用。[0254]图18示出了根据实施例的可选的MLSL架构1811。可选的MLSL架构1811类似于图15B的MLSL架构1511,除了机器学习特定抽象和通信模块1816合并到单个模块内以外。抽象机器学习计算功能和通信功能的合并实现计算和通信重叠的细粒度。在未决的操作上上锁的消费者线程和或核心可被置于休眠,并且一旦锁操作完成就醒来。可在单独数据相关性的粒度上执行计算操作,使得针对计算的单元的相关性一旦满足,计算的单元就可被执行并立即发送到其它节点。可提供合并的API,其组合计算和通信操作,使得计算操作可与通信或同步操作或原语相关联,并且一旦计算的单元完成,则所计算的数据就可被发送。[0255]图19A示出了适合于细粒度计算和通信重叠的张量计算操作。本文所述的合并的计算和通信API可使较大的计算操作能够细分成较小的块,且不是在结果被传递到其它节点之前等待整个通信操作完成,而是计算操作的单独部分一旦完成,结果就可以较细粒度进行传递。例如,图19A示出了细粒度锁定的xGEMM操作,其使用M、N和K个维度的并行来被格式化为多个小块-GEMM操作。针对峰值架构性能优化的模式间GEMM内核可并行地应用于计算操作的子单元。例如且在一个实施例中,可使用第一数据块1902和第二数据块1904来执行计算操作的一部分以生成NxM矩阵1906的一部分。可在第一数据块1902和第二数据块1904上执行操作,且在整个矩阵操作完成之前分发结果。在这样的实施例中,可基于在权重1912和输入1914之间的多个细粒度计算操作的集合例如总和)来生成输出[m,η]1916。这样的技术允许计算和通信操作不仅在神经网络分布的训练期间在层之间而且也在层内重叠。当子计算操作完成时,可例如使用本文所述的点对点原语将那些操作发送到相关节点,实现在计算和通信操作之间的较大重叠并增加总系统效率。这种技术不同于现有的计算和通信解决方案,其在将结果发送到其它节点之前针对层执行计算操作的整个集合。[0256]计算和通信的细粒度执行需要用于使调度器能够协调计算和通信资源的有效使用的灵活的同步机制。在一个实施例中,在任意张量的粒度下经由扩展的存储器语义来实现细粒度执行和通信。不是依赖于轮询,而是在未决的操作上被上锁的消费者线程和或核心可被置于休眠,且一旦封锁操作完成就被唤醒。在存储器高速缓存行粒度处定义的传统的满空位是太细的细度而对这个目的不是最佳的。其它解决方案例如,监控等待)可以跟踪连续地址,且在地址的范围内的任何存储器写入唤醒消费者。作为对现有解决方案的改进,一个实施例提供用于使张量操作与同步语义相关联的方法和装置,其允许消费者线程只有在张量上定义的所有操作完成时才被唤醒。[0257]图19B示出了根据实施例的在多节点系统1920内的同步存储器访问。如所示,生产者节点1930和消费者节点1940每个访问共享存储器1950,其可以是在多个节点上映射的分布式和共享虚拟地址空间。生产者节点1930产生将由消费者节点1940消费的数据。当消费者节点1940具有对由生产者节点1930计算的张量数据1955的依赖性时,消费者节点1940可上锁并休眠,直到所有所需的张量数据1955被写到存储器1950为止。使用现有的语义,当执行到地址的任何写入时,可中断消费者节点1940。然而,当消费者节点1940具有对待写入的数据的依赖性时,则这样的语义的使用可能不是适当的。如果消费者节点1940依赖于所有张量数据1955,与张量数据的任何给定单元不同,则在张量数据1955内的任何存储器访问时醒来将导致很多假性唤醒。此外,在一个实施例中,张量作为多维阵列被存储在没有连续地址的存储器中。现有语义可能不能够监控不存在于一组连续存储器地址内的数据。因此,现有语义例如,监控和等待语义不能容易用于监控张量。[0258]本文所述的实施例展现使消费者节点1940能够监控与作为多维阵列被存储在存储器中的张量相关联的一组非连续地址。在这样的实施例中,消费者节点1940可指示张量数据1955被监控,且与张量数据1955相关联的所有存储器地址可被监控用于更新。在一个实施例中,消费者节点1940可请求监控应用于特定类型的更新,例如从生产者节点1930到张量数据1955存储器地址的远程写入。此外,提供语义,其允许消费者节点1940可请求被通知何时所有监控的地址被写入。此外,这个机制可用于调节在同步边界处的硬件高速缓存一致性的粒度和维护,如图19C所示。[0259]图19C示出了图19B的存储器通信语义可扩展以实现用于高速缓存存储器数据的粗粒度高速缓存一致性。因为张量数据可能跨越在生产者节点和消费者节点上的多个高速缓存行,所以本文所述的技术可使高速缓存一致性能够在更适合于张量数据的粗粒度处被执行,而不是在常规系统中使用的高速缓存行一致性。例如,在一个实施例中,生产者节点1930包括高速缓存存储器1935,其可在张量数据1955存储到共享存储器1950之前缓存由在生产者节点1930内的计算集群1932A-1932B生成的张量数据1955。此外,用于消费者节点1940的计算集群1942A-1942B的张量数据1955的低延迟访问可由在消费者节点1940中的高速缓存存储器1945实现。不是将高速缓存一致性维持在高速缓存行粒度处,可在张量数据1955的所监控的粒度处执行在生产者节点1930的高速缓存存储器1935和消费者节点1940的高速缓存存储器1945之间的一致性更新。这些批量的一致性更新可导致在多节点、高速缓存一致系统(例如,经由高速缓存一致互连而耦合的多GPU系统)内的粗存储器更新的使用情况中的存储器总线带宽的更有效使用。[0260]图20A-图20B示出了描述了用于经由MLSLAPI而实现分布式机器学习的操作的流程图。在图20A中示出一般操作。在图20B中示出MLSL设置。[0261]如图20A所示,一般MLSL操作包括用于创建在分布式计算系统的多个计算节点之间执行的通信操作的全局视图的操作,如在块2002处所示的。全局视图是使用在针对机器学习应用的应用开发者的领域知识内的机器学习特定语言来构造的。在一个实施例中,全局视图是MLSL机器学习抽象层内部的,且使用由MLSL机器学习抽象层提供的API命令来规定。内部全局视图使MLSL能够执行被称为自我测量的操作。自我测量实现全局视图的使用以获得针对机器学习实现而执行的通信。[0262]在一个实施例中,自我测量用于在曲线中确定通信操作的通信成本并跟踪计算和通信操作的重叠,如在块2004处所示的。在一个实施例中,通信损失从由在计算节点之间的数据通信引入的计算延迟方面被量化。此外,自我测量记录在两个连续通信操作上的计算成本。接着这个信息可用于有效地调度通信操作。例如,如果有大计算成本,则可在这个时间期间调度多个通信操作。对于较小的计算成本,可选择调度以发送较短的通信操作或将大通信操作划分为可隐藏在有用的计算操作后面的较小的片。[0263]跟踪该重叠可用于确定通信时间与有用的计算重叠的程度。在一个实施例中,可通过运行针对一些阶段的实际机器学习拓扑或使用利用针对那个平台的不同消息尺寸和层类型的延迟来预先填充的数据库而获得计算和通信时间。在一个实施例中,从重叠计算和通信时间的循环的数量或重叠计算和通信操作所执行的时间量方面来量化重叠。在一些实施例中,可执行这样的操作的组合。在一个实施例中,自我测量能力可显露于应用开发者以实现性能瓶颈的识别和或用于执行调试操作。[0264]在一个实施例中,应用开发者可明确地规定并行的类型以用于神经网络的每个层。在一个实施例中,全局视图和自我测量可用于自动确定并行的类型以用于给定层和给定平台,如在块2006处所示的。可通过在运行时尝试不同的组合或使用启发法来确定要使用的并行的最佳类型。例如,一个启发法可指示当激活的大小大于权重的大小时使用数据并行,或者当权重的大小大于激活的大小时使用模型并行。部分地基于激活和权重数据的X和y维度的比较来确定权重或激活的大小。在一个实施例中,可在分布式训练期间在运行时针对神经网络的每个层评估多种类型的并行。可接着基于由运行时间评估指示的通信效率来确定用于神经网络层的并行。[0265]在一个实施例中,一般的MLSL逻辑另外执行操作以使用全局视图来自动确定消息的调度和优先化,如在块2008处所示的。例如,自我测量能力使MLSL逻辑能够执行尝试各种组合并选择调度和优先化的最佳组合的操作。调度机制包括优先通道的使用、使低优先级消息延迟和或划分大消息。可至少部分地经由被包括在MLSL库对象内的软件逻辑来实现这样的技术。可至少部分地在硬件中(例如在网络接口控制器或主机结构接口内)执行MLSL逻辑。虽然一些实施例实现对针对通信的调度和优先级的自动确定,但是在一个实施例中,应用开发者可通过针对最佳性能而布置通信开始和等待操作来明确地调度并优先化消息发送,因为最佳调度和优先化可在平台和神经网络拓扑上不同。[0266]在一个实施例中,一般MLSL逻辑此外执行用于基于使用MLSLAPI而规定的机器学习特定信息来自动确定网络端点的最佳数量和核心的数量的操作,如在块2010处所示的。在一个实施例中,MLSLAPI可使用机器学习拓扑包括神经网络拓扑和相关联的机器学习网络的层的数量来实现分布式机器学习系统的规定。在一个实施例中,可使用MLSL全局视图和平台数据来推断出端点和网络通信核心的数量。例如,当使用更多的核心驱动网络时,通信性能可提高。然而,考虑到在用于计算的核心的数量和用于通信的核心的数量之间的折中,执行网络核心的分配。因此,在一个实施例中,MLSL自我测量允许计算和通信时间被平衡以优化总系统性能。例如,用于通信的核心的数量可动态地改变,并且可基于对总计算时间的影响来选择核心的最佳数量。可选地,自动确定可被绕过,并且应用开发者可明确地规定核心的数量以及网络端点的相关数量以用于通信。[0267]如图20B所示,针对MLSL设置的操作包括用于初始化MLSL库以实现MLSLAPI的使用的第一操作,如在块2012处所示的。MLSL逻辑可接着用于创建会话对象并设置全局小批尺寸,如在块2014处所示的。可基于局部批量尺寸的和来确定全局小批尺寸。MLSL逻辑可接着用于创建分布对象,其指示用于数据并行的分区的数量和用于模型并行的分区的数量,如在块2106处所示的。[0268]MLSL逻辑可接着用于针对神经网络的每层创建操作对象,如在块208处所示的。在一个实施例中,针对每层创建操作对象包括创建辅助OperationRegInfo对象,其保存关于可学习的参数和激活形状的信息。参数定义在输入和输出激活与操作的参数之间的特定关系。MLSLAPI使开发者能够将输入输出激活形状和参数的形状添加到OperationRegInfo对象。使用MLSLAPI,开发者可接着创建操作对象,删除deleteOperationRegInfo对象,并设置在操作之间的相关性。使用关于批量尺寸和形状的信息,开发者可接着使用MLSLAPI来针对关于参数的梯度、输入激活和关于输入激活的梯度分配缓冲器。当所链接的操作共享公共激活时,链接操作可在交易的一侧上被分配并在交易的另一侧上被重新使用。它们应只在一侧上被分配并在另一侧上被重新使用。在一个实施例中,MLSL库提供实现专用优化的专用分配器。在一个实施例中,在块2014创建的会话对象包括可用于完成操作对象的创建的提交方法。[0269]MLSL逻辑可接着用于执行机器学习框架工作流,工作流的计算部分被包装有MLSLAPI调用,如在块2020处所示的。在一个实施例中,MLSLAPI调用实现激活、关于激活的梯度和关于参数的梯度的自动交换。MLSL逻辑可接着用于基于在块2022处执行的机器学习框架工作流来更新参数。[0270]图21A-图21B示出了根据实施例的执行神经网络的分布式训练的方法。可使用如本文所述的图形处理逻辑来执行神经网络的分布式训练,其中图形处理逻辑被包括在多个互连的工作节点内。在各种实施例中,多个互连的工作节点可以在单个计算设备或机壳内,或可在多个计算设备或机壳上分布。例如,可以用与如图17所示的多节点计算系统1700类似的方式配置多个互连的工作节点。[0271]在一个实施例中,如在图21A处所示的,方法包括将库存储在存储器中,其中库被配置为有利于在神经网络的分布式训练期间的数据的传输,如在块2102处所示的。数据可与神经网络的可训练参数相关联。在训练期间,多个节点可经由网络接口来发送和接收与可训练参数相关联的梯度数据,如在块2104处所示的。节点可经由通用处理器来执行由库提供的指令,如在块2106处所示的。指令可使通用处理器配置网络接口以在机器学习框架的工作流期间发送并接收与可训练参数相关的梯度数据。此外,工作节点可经由图形处理器执行与机器学习框架工作流相关联的计算操作以生成与可训练参数相关联的梯度数据,如在块2108所示的。计算操作可经由网络接口与梯度数据的发送和接收交错。交错的计算操作可重叠,使得可发送数据的第一部分,同时针对数据的第二部分执行计算操作。[0272]图21B示出了可使用如本文所述的图形处理逻辑执行的用于神经网络的分布式训练方法。在各种实施例中,多个互连的工作节点可以在单个计算设备或机壳内,或可在多个计算设备或机壳上分布。该方法可由在通用处理器内的一个或多个处理设备、图形处理器或结构接口内的处理器实现。下面所述的第一或第二指令可以是由如在图15B、图18中的机器学习缩放架构1511、1811内的库或本文所述的等效库(例如,NCCL库)提供的指令。[0273]在一个实施例中,如在块2112处所示的,该方法包括将第一组指令存储在第一存储器中,第一组指令包括机器学习框架。第一存储器可以是由在数据处理系统内的所有或大部分部件可访问的系统存储器。例如,第一存储器可以是如在图1中的系统存储器104。如在块2114处所示的,该方法此外包括经由结构接口来实现与这组可训练的机器学习参数相关联的数据的传输和接收。数据的传输和接收可由与高性能通信结构通信的消息发送库例如,消息发送库1519和图15B的高性能通信结构1521执行或促进。[0274]在一个实施例中,如在块2116处所示的,该方法此外包括经由一组通用处理器核心来执行第一组指令。执行第一组指令包括提供用于可训练的机器学习参数的梯度的计算的训练工作流以及与第二组指令通信。第二组指令可经由结构接口来有利于梯度的传输和接收。如在块2118处所示的,该方法此外包括经由图形处理器来执行与训练工作流相关联的计算操作。执行计算操作可包括生成针对可训练的机器学习参数的梯度。在一个实施例中,梯度可存储在图形处理器和结构接口之间共享的存储器中,允许梯度数据被发送而不需要数据在传输之前存储在系统存储器中。[0275]图22是根据本文所述的实施例的数据处理系统2200的方框图。数据处理系统2200是异构处理系统,其具有处理器2202、统一存储器2210和包括机器学习加速逻辑的GPGPU2220。处理器2202和GPGPU2220可以是如本文所述的处理器和GPGPU并行处理器中的任一个。处理器2202可执行针对存储在系统存储器2212中的编译器2215的指令。编译器2215在处理器2202上执行以将源代码编译成所编译的代码2214B。所编译的代码2214B可包括可由处理器2202执行的代码和或可由GPGPU2220执行的代码。在编译期间,编译器2215可执行用于插入元数据包括关于存在于所编译的代码2214B中的数据并行的水平的暗示和或关于与基于所编译的代码2214B而分派的线程相关联的数据位置的暗示)的操作。编译器2215可包括用于执行这样的操作所必须的信息,或操作可借助于运行时库2216例如,本文所述的机器学习缩放库MLSL来被执行。运行时库2216也可有利于编译器2115编译源代码2214A,并包括在运行时与所编译的代码2215B链接以有利于所编译的指令在GPGPU2220上执行的指令。[0276]统一存储器2210代表可由处理器2202和GPGPU2220访问的统一地址空间。统一存储器包括系统存储器2212以及GPGPU存储器2218APGPU存储器2218包括在GPGPU2220内的GPGPU本地存储器2228,且还可包括系统存储器2212的一些或全部。例如,存储在系统存储器2212内的所编译的代码2214B也可映射到GPGPU存储器2218内以用于由GPGPU2220存取。[0277]GPGI3U2220包括多个计算块2224A-2224N,其每个包括如在图2中的处理集群214A-214N中的一个或多个或处理阵列212的一个或多个实例。GPGPU2220还包括一组寄存器2224、高速缓存存储器2226和可用作计算块2224A-2224N的共享资源的功率和性能模块2225。功率和性能模块2225可被配置为调节针对计算块2224A-2224N的功率传送和时钟频率以在重工作量下针对在计算块2224A-2224N内的栅极空闲部件供电。GPGPU2220包括GPGPU本地存储器2228,其为与GPGPU2220共享图形卡或多芯片模块的物理存储器。[0278]在一个实施例中,GPGPU2220包括图形和计算加速逻辑,其包括指令取出和解码单元2221、调度器单元2222和机器学习固定功能单元2223。取出和解码单元2221是包括用于将由GPGPU220计算的指令取出并解码的逻辑的取出和解码单元。在一个实施例中,所执行的指令可经由调度器单元2222来对经由计算块2224A-2224N和或机器学习固定功能单元2223执行的一组操作和或微操作进行按顺序排列和或串行化。[0279]在一个实施例中,机器学习固定功能单元2223是明确和专有地配置为执行大量并行矩阵乘法操作的专用集成电路。在一个实施例中,机器学习固定功能单元2223被配置为针对具有无二次幂滤波器尺寸的卷积滤波器执行矩阵乘法。在一个实施例中,机器学习固定功能单元2223是提供可在工作负载之间更新的固定功能逻辑的现场可编程门阵列FPGA〇[0280]在一些实施例中,GPGPU2220包括集成结构接口2230和结构接口高速缓存2232。在一个实施例中,集成结构接口2230此外包括MLSL结构模块2231,其使结构接口能够针对某些MLSL操作提供硬件加速。结构接口2230可实现与高性能通信结构例如图15B的高性能通信结构1521的通信。结构接口2230具有映射到GPGPU本地存储器2228的至少一部分的地址空间,且在一个实施例中可参与由处理器2202和GPGPU2220共享的统一存储器2210。结构接口高速缓存2232用于缓存从通信结构接收或传输到通信结构的数据,该通信结构实现在计算节点之间的数据通信。在一个实施例中,当计算结果由GPGPU2220计算并存储在GPGPU本地存储器2228内时,结构接口2230可将数据从GPGPU本地存储器2228发送到其它计算节点。在这样的实施例中,数据不需要被发送到系统存储器2212,除非数据需要由在处理器2202上执行的应用使用。[0281]MLSL结构模块2231被配置为有利于在节点之间的数据的低延迟传输。在各种实施例中,MLSL结构模块2231可以是被配置为执行由MLSL或等效机器学习缩放库提供的固件的固件模块。在一个实施例中,MLSL结构模块2231是被配置为执行指令以实现如本文所述的点对点通信原语的处理器或微控制器。在一个实施例中,MLSL结构模块2231可接收在GPGPU本地存储器2228内的一组地址,其与由MLSL运行时(例如运行时库2216管理的数据对象相关联。例如,用于存储由GPGPU2220生成的激活数据的输出缓冲器的地址范围可被提供到MLSL结构模块2231JLSL结构模块2231可接着被配置为监控用于更新的地址范围。当地址范围接收到由GPGPU2220输出的激活数据的写入时,MLSL结构模块2231可调度直接到结构接口2230的传送以传送所输出的激活数据。MLSL结构模块2231也可用于实现本文所述的细粒度通信和点对点硬件通信技术。[0282]由结构接口2230支持的协议可改变。在一个实施例中,结构接口2230是高速以太网接口。在一个实施例中,结构接口2230是Omni-Path互连接口。在一个实施例中,结构接口2230是InfiniBand接口。在一个实施例中,结构结构2230是NVLink接口的一个版本或另一基于NVHS的互连。也可支持其它结构接口技术。[0283]应认识到,比上面所述的示例更少或更多配备的系统可能对某些实现是优选的。因此,数据处理系统2000的配置取决于很多因素可在实现中不同,所述因素例如价格约束、性能要求、技术提高或其它状况。本文所述的实施例可在高性能计算和机器学习训练环境内找到扩展的使用。因此,本描述预期本文所述的数据处理系统2000和其它数据处理和计算系统被实现为在分布式计算系统内的高性能服务器或服务器阵列。这样的分布式计算系统可在数据中心或服务器农场内实现。然而,实施例不限于这样的实现,且本文所述的技术也可在较低性能设备的大规模分布式计算系统例如但不限于移动或手持设备、平板计算设备或所连接的消费电子设备)中得到使用。[0284]额外的示例性图形处理系统[0285]上文所述的实施例的细节可合并在下文所述的图形处理系统和设备内。图22-图35的图形处理系统和设备示出了可实现上文所述的任何和所有技术的可选的系统和图形处理硬件。[0286]图22是根据实施例的处理系统2300的方框图。在各种实施例中,系统2200包括一个或多个处理器2202和一个或多个图形处理器2208,并且可以是单个处理器桌上型系统、多处理器工作站系统或具有大量处理器2202或处理器核心2207的服务器系统。在一个实施例中,系统2200是合并在片上系统SoC集成电路内的处理平台,以用于在移动、手持式或嵌入式设备中使用。[0287]系统2200的实施例可包括下列项或合并在下列项内:基于服务器的游戏平台、游戏控制台,包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中,系统2200是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统2200还可包括下列项、与下列项耦合或集成在下列项内:可穿戴式设备例如智能手表穿戴式设备、智能眼镜设备、增强现实设备或虚拟现实设备。在一些实施例中,数据处理系统2200是具有一个或多个处理器2202和由一个或多个图形处理器2208生成的图形接口的电视机或机顶盒设备。[0288]在一些实施例中,一个或多个处理器2202中的每个包括一个或多个处理器核心2207以处理指令,所述指令当被执行时执行用于系统和用户软件的操作。在一些实施例中,一个或多个处理器核心2207中的每个被配置为处理特定的指令集2209。在一些实施例中,指令集2209可有利于复杂指令集计算CISC、精简指令集计算RISC或经由超长指令集字VLIW进行计算。多个处理器核心2207中的每个可以处理不同的指令集2209,其可包括有利于其它指令集的仿真的指令。处理器核心2207还可包括其它处理设备,例如数字信号处理器DSP。[0289]在一些实施例中,处理器2202包括高速缓存存储器2204。取决于架构,处理器2202可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,高速缓存存储器在处理器2202的各种部件当中被共享。在一些实施例中,处理器2202还使用外部高速缓存例如3级L3高速缓存或最后一级高速缓存LLC未示出),其可使用已知的高速缓存一致性技术在处理器核心2207当中被共享。此外寄存器文件2206被包括在处理器2202中,处理器2202可包括用于存储不同类型的数据的不同类型的寄存器例如整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其它寄存器可以是处理器2202的设计所特有的。[0290]在一些实施例中,处理器2202与处理器总线2210耦合以在处理器2202和系统2200中的其它部件之间发送通信信号,例如地址、数据或控制信号。在一个实施例中,系统2200使用示例性“集线器”系统架构,包括存储器控制器集线器2216和输入输出(IO控制器集线器2230。存储器控制器集线器2216有利于在存储器设备和系统2200的其它部件之间的通信,而IO控制器集线器(ICH2230经由本地IO总线来提供与IO设备的连接。在一个实施例中,存储器控制器集线器2216的逻辑集成在处理器内。[0291]存储器设备2220可以是动态随机存取存储器DRAM设备、静态随机存取存储器SRAM设备、闪存设备、相变存储器设备或具有适当的性能以用作过程存储器的某其它存储器设备。在一个实施例中,存储器设备2220可作为系统2200的系统存储器来操作,以存储数据2222和指令2221以用于在一个或多个处理器2202执行应用或过程时使用。存储器控制器集线器2216也与可选的外部图形处理器2212耦合,外部图形处理器2212可与处理器2202中的一个或多个图形处理器2208通信以执行图形和媒体操作。[0292]在一些实施例中,ICH2230使外围设备能够经由高速IO总线连接到存储器设备2220和处理器2202。IO外围设备包括但不限于音频控制器2246、固件接口2228、无线收发机2226例如Wi-Fi、蓝牙)、数据存储设备2224例如硬盘驱动器、闪存等)和用于将传统例如个人系统2PS2设备耦合到系统的传统IO控制器2240。一个或多个通用串行总线USB控制器2242连接输入设备,例如键盘和鼠标2244的组合。网络控制器2234还可与ICH2230耦合。在一些实施例中,高性能网络控制器未示出)与处理器总线2210耦合。将认识到,所示的系统2200是示例性的而不是限制性的,因为也可使用不同地配置的其它类型的数据处理系统。例如,IO控制器集线器2230可集成在一个或多个处理器2202内,或存储器控制器集线器2216和IO控制器集线器2230可集成到分立的外部图形处理器例如外部图形处理器2212内。[0293]图23是具有一个或多个处理器核心2302A-2302N、集成存储器控制器2314和集成图形处理器2308的处理器2300的方框图。具有与本文的任何其它附图的元件相同的附图标记或名称的图23的那些元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。处理器2300可包括额外的核心,并包括由虚线框表示的额外核心2302N。处理器核心2302A-2302N中的每个包括一个或多个内部高速缓存单元2302A-2304N。在一些实施例中,每个处理器核心还存取一个或多个共享缓存单元2306。[0294]内部高速缓存单元2304A-2304N和共享高速缓存单元2306代表在处理器2300内的高速缓存存储器分级结构。高速缓存存储器分级结构可包括在每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中级高速缓存,例如2级L2、3级L3、4级L4或其它级别的高速缓存,其中在外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持在各种高速缓存单元2306和2304A-2304N之间的一致性。[0295]在一些实施例中,处理器2300还可包括一组一个或多个总线控制器单元2316和系统代理核心2310。一个或多个总线控制器单元2316管理一组外围总线,例如一个或多个外围部件互联网总线例如PCI、快速PCI。系统代理核心2310针对各种处理器部件提供管理功能。在一些实施例中,系统代理核心2310包括一个或多个集成存储器控制器2314以管理对各种外部存储器设备未示出)的存取。[0296]在一些实施例中,处理器核心2302A-2302N中的一个或多个包括对同时多线程的支持。在这样的实施例中,系统代理核心2310包括用于在多线程处理期间协调和操作核心2302A-2302N的部件。系统代理核心2310可另外包括功率控制单元PCU,其包括逻辑和部件以调节处理器核心2302A-2302N和图像处理器2308的功率状态。[0297]在一些实施例中,处理器2300另外包括图形处理器2308以执行图形处理操作。在一些实施例中,图形处理器2308与这组共享高速缓存单元2306和包括一个或多个集成存储器控制器2314的系统代理核心2310耦合。在一些实施例中,显示器控制器2311与图形处理器2308耦合以将图形处理输出到一个或多个耦合的显示器。在一些实施例中,显示控制器2311可以是经由至少一个互连与图形处理器耦合的单独模块,或可集成在图形处理器2308或系统代理核心2310内。[0298]在一些实施例中,基于环的互连单元2312用于耦合处理器2300的内部部件。然而,可使用可选的互连单元,例如点对点互连、切换式互连或其它技术,包括在本领域中公知的技术。在一些实施例中,图形处理器2308经由IO链路2313与环形互连2312耦合。[0299]示例性IO链路2313代表多种IO互连中的至少一个,所述多种IO互连包括封装上IO互连,其有利于实现在各种处理器部件和高性能嵌入式存储器模块2318例如eDRAM模块之间的通信。在一些实施例中,处理器核心2302A-2302N和图形处理器2308中的每个使用嵌入式存储器模块2318作为共享最后一级高速缓存。[0300]在一些实施例中,处理器核心2302A-2302N是执行同一指令集架构的同构核心。在另一实施例中,处理器核心2302A-2302N从指令集架构(ISA方面来说是异构的,其中处理器核心2302A-2302N中的一个或多个执行第一指令集,而其它核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中,处理器核心2302A-2302N从微架构方面来说是异构的,其中具有相对较高的功率消耗的一个或多个核心与具有相对较低的功率消耗的一个或多个功率核心耦合。此外,处理器2300可在一个或多个芯片上实现或作为还具有所述部件等的SoC集成电路来实现。[0301]图24是图形处理器2400的方框图,图形处理器2400可以是分立的图形处理单元或可以是与多个处理核心集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的存储器映射的IO接口并使用放置到处理器存储器内的命令来进行通信。在一些实施例中,图形处理器2400包括存储器接口2414以存取存储器。存储器接口2414可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和或到系统存储器的接口。[0302]在一些实施例中,图形处理器2400还包括显示控制器2402以将显示输出数据驱动到显示设备2420。显示控制器2402包括用于一个或多个叠加平面的硬件以用于视频或用户接口元件的多个层的显示和构成。在一些实施例中,图形处理器2400包括视频编码解码器引擎2406以将媒体编码、解码或转码成一种或多种媒体编码格式、从一种或多种媒体编码格式编码、解码或转码或在一种或多种媒体编码格式之间编码、解码或转码,媒体编码格式包括但不限于运动图片专家组MPEG格式例如MPEG-2、高级视频编码AVC格式例如H.264MPEG-4AVC以及电影电视工程师协会(SMPTE421MVC-1和联合图像专家组JPEG格式例如JPEG、以及运动JPEGMJPEG格式。[0303]在一些实施例中,图形处理器2400包括块图像传输BLIT引擎2404以执行二维2D光栅化程序操作,包括例如位边界块传输。然而,在一个实施例中,2D图形操作是使用图形处理引擎GPE2410的一个或多个部件来执行的。在一些实施例中,GPE2410是用于执行包括三维3D图形操作和媒体操作的图形操作的计算引擎。[0304]在一些实施例中,GPE310包括用于使用作用于3D原语形状(例如矩形、三角形等)上的处理功能来执行3D操作(例如渲染三维图像和场景)的3D流水线2412。30流水线2412包括执行在元件内的各种任务和或生成用于3D媒体子系统2415的执行线程的可编程和固定功能元件。虽然3D流水线2412可用于执行媒体操作,但是GPE2410的实施例还包括媒体流水线2416,其专门用于执行媒体操作,例如视频后处理和图像增强。[0305]在一些实施例中,媒体流水线2416包括固定功能或可编程逻辑单元以代替或代表视频编码解码器引擎2406执行一个或多个专用媒体操作,例如视频解码加速、视频解交织和视频编码加速。在一些实施例中,媒体流水线2416另外包括线程生成单元来生成线程以用于在3D媒体子系统1415上执行。生成的线程在被包括在3D媒体子系统2415中的一个或多个图形执行单元上执行针对媒体操作的计算。[0306]在一些实施例中,3D媒体子系统2415包括用于执行由3D流水线2412和媒体流水线2416生成的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3D媒体子系统2415,所述3D媒体子系统2415包括用于仲裁各种请求并将各种请求分派到可用线程执行资源的线程分派逻辑。执行资源包括图形执行单元的阵列以处理3D和媒体线程。在一些实施例中,3D媒体子系统2415包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括共享存储器,包括寄存器和可寻址存储器,以在线程之间共享数据并存储输出数据。[0307]示例性额外图形处理引擎[0308]图25是根据一些实施例的图形处理器的图形处理引擎2510的方框图。在一个实施例中,图形处理引擎GPE2510是图24所示的GPE2410的版本。具有与本文的任何其它附图的元件相同的附图标记或名称)的图25的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。例如,示出图24的3D流水线2412和媒体流水线2416。媒体流水线2416在GPE2510的一些实施例中是可选的,并且可以不明确地被包括在GPE2510内。例如并且在至少一个实施例中,单独的媒体和或图像处理器耦合到GPE2510〇[0309]在一些实施例中,GPE2510与命令流式发送器2503耦合或包括命令流式发送器2503,命令流式发送器2503向3D流水线2412和或媒体流水线2416提供命令流。在一些实施例中,命令流式发送器2503与存储器耦合,存储器可以是系统存储器、或内部高速缓存存储器和共享高速缓存存储器中的一个或多个。在一些实施例中,命令流式发送器2503从存储器接收命令并将命令发送到3D流水线2412和或媒体流水线2416。命令是直接从环形缓冲器取出的,环形缓冲器存储用于3D流水线2412和媒体流水线2416的命令。在一个实施例中,环形缓冲器可另外包括存储批量的多个命令的批量命令缓冲器。用于3D流水线2412的命令也可包括对存储在存储器中的数据的引用,例如但不限于用于3D流水线2412的顶点和几何数据和或用于媒体流水线2416的图像数据和存储器对象。3D流水线2412和媒体流水线2416通过经由在相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派到图形核心阵列2514来处理命令和数据。[0310]在各种实施例中,3D流水线2412可通过处理指令并将执行线程分派到图形核心阵列2514来执行一个或多个着色器程序,例如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序。图形核心阵列2514提供执行资源的统一块。在图形核心阵列2514内的多用途执行逻辑例如执行单元包括对各种3DAPI着色器语言的支持,并可执行与多个着色器相关的多个同时执行线程。[0311]在一些实施例中,图形核心阵列2514还包括执行逻辑以执行媒体功能,例如视频和或图像处理。在一个实施例中,执行单元另外包括通用逻辑,其可编程来除了执行图形处理操作以外还执行并行通用计算操作。通用逻辑可并行地或结合在图22的处理器核心2207或如在图23中的核心2302A-2302N内的通用逻辑来执行处理操作。[0312]由在图形核心阵列2314上执行的线程生成的输出数据可将数据输出到在统一返回缓冲器URB2518中的存储器。URB2518可存储用于多个线程的数据。在一些实施例中,URB2518可用于在图形核心阵列2514上执行的不同线程之间发送数据。在一些实施例中,URB2518可另外用于在图形核心阵列上的线程和在共享功能逻辑2520内的固定功能逻辑之间的同步。[0313]在一些实施例中,图形核心阵列2514是可缩放的,使得阵列包括可变数量的图形核心,每个图形核心基于GPE2510的目标功率和性能水平具有可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得执行资源可按需要被启用或禁用。[0314]图形核心阵列2514与共享功能逻辑2520耦合,共享功能逻辑2520包括在图形核心阵列中的图形核心之间共享的多个资源。在共享功能逻辑2520内的共享功能是向图形核心阵列2514提供专用补充功能的硬件逻辑单元。在各种实施例中,共享功能逻辑2520包括但不限于采样器2521、数学2522和线程间通信ITC2523逻辑。此外,一些实施例在共享功能逻辑2520内实现一个或多个高速缓存2525。实现共享功能,其中针对给定的专用功能的需求对于包括在图形核心阵列2514内是不足的。替代地,那个专用功能的单个例示被实现为在共享功能逻辑2520中的独立实体,并在图形核心阵列2514内的执行资源当中被共享。在图形核心阵列2514之间被共享并被包括在图形核心阵列2514内的功能的精确集合在实施例之间变化。[0315]图26是由额外的实施例提供的图形处理器2600的方框图。具有与本文的任何其它附图的元件相同的附图标记或名称)的图26的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。[0316]在一些实施例中,图形处理器2600包括环形互连2602、流水线前端2604、媒体引擎2637和图形核心2680A-2680N。在一些实施例中,环形互连2602将图形处理器耦合到其它处理单元,所述其它处理单元包括其它图形处理器或一个或多个通用处理器核心。在一些实施例中,图形处理器是集成在多核处理系统内的很多处理器中的一个。[0317]在一些实施例中,图形处理器2600经由环形互连2602接收批量命令。进入的命令由在流水线前端2604中的命令流式发送器2603解释。在一些实施例中,图形处理器2600包括可缩放的执行逻辑以经由图形核心2680A-2680N来执行3D几何处理和媒体处理。对于3D几何处理命令,命令流式发送器2603将命令供应到几何流水线2636。对于至少一些媒体处理命令,命令流式发送器2603将命令供应到视频前端2634,视频前端2634与媒体引擎2637耦合。在一些实施例中,媒体引擎2637包括用于视频和图形后处理的视频质量引擎VQE2630以及用于提供硬件加速的媒体数据编码和解码的多格式编码解码MFX2633。在一些实施例中,几何流水线2636和媒体引擎2637每个针对由至少一个图形核心2680A提供的线程执行资源生成执行线程。[0318]在一些实施例中,图形处理器2600包括以模块化核心2680A-2680N有时被称为核心片为特征的可缩放的线程执行资源,每个模块化核心具有多个子核心2650A-550N、2660A-2660N有时被称为核心子片)。在一些实施例中,图形处理器2600可具有任何数量的图形核心2680A到2680N。在一些实施例中,图形处理器2600包括具有至少第一子核心2650和第二子核心2660A的图形核心2680A。在其它实施例中,图形处理器是具有单个子核心(例如2650A的低功率处理器。在一些实施例中,图形处理器2600包括多个图形核心2680A-2680N,每个图形核心包括一组第一子核心2650A-2650N和一组第二子核心2660A-2660N。这组第一子核心2650A-2650N中的每个子核心包括至少第一组执行单元2652A-2652N和媒体纹理采样器2654A-2654N。这组第二子核心2660A-2660N中的每个子核心包括至少第二组执行单元2662A-2662N和采样器2664A-2664N。在一些实施例中,每个子核心2650A-2650N、2660A-2660N共享一组共享资源2670A-2670N。在一些实施例中,共享资源包括共享高速缓存存储器和像素操作逻辑。其它共享资源也可被包括在图形处理器的各种实施例中。[0319]额外的示例性执行单元[0320]图27示出了包括在一些实施例中采用的处理元件的阵列的线程执行逻辑2700。具有与本文的任何其它附图的元件相同的附图标记或名称)的图27的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。[0321]在一些实施例中,线程执行逻辑2700包括着色器处理器2702、线程调度器2704、指令高速缓存2706、包括多个执行单元2708A-2708N的可缩放的执行单元阵列、采样器2710、数据高速缓存2712和数据端口2714。在一个实施例中,可缩放的执行单元阵列可基于工作负载的计算要求通过启用或禁用一个或多个执行单元(例如,执行单元2708A、2708B、2708C、2708D到2708N-1和2708N中的任一个来动态地缩放。在一个实施例中,经由链接到部件中的每个的互连结构来互连所包括的部件。在一些实施例中,线程执行逻辑2700包括通过指令高速缓存2706、数据端口2714、采样器2710和执行单元2708A-2708N中的一个或多个到存储器例如系统存储器或高速缓存存储器)的一个或多个互连。在一些实施例中,每个执行单元例如2708A是独立可编程通用计算单元,其能够执行多个同时硬件线程,同时并行地针对每个线程处理多个数据元件。在各种实施例中,执行单元2708A-2708N的阵列是可缩放的以包括任何数量的单独执行单元。[0322]在一些实施例中,执行单元2708A-2708N主要用于执行着色器程序。着色器处理器2702可处理各种着色器程序并经由线程分派器2704来分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于仲裁来自图形和媒体流水线的线程发起请求并对在执行单元2708A-2708N中的一个或多个执行单元上的所请求的线程进行实例化的逻辑。例如,几何流水线例如图26的2636可以将顶点、曲面细分或几何着色器分派到线程执行逻辑2700图27以用于处理。在一些实施例中,线程分派器2704也可处理来自执行的着色器程序的运行时线程生成请求。[0323]在一些实施例中,执行单元2708A-2708N支持如下指令集,所述指令集包括对很多标准3D图形着色器指令的固有支持,使得来自图形库例如Direct3D和OpenGL的着色器程序在最小转换的情况被执行。执行单元支持顶点和几何处理例如顶点程序、几何程序、顶点着色器)、像素处理例如像素着色器、片段着色器和通用处理例如,计算和媒体着色器)。每个执行单元2708A-2708N能够进行多议题单指令多数据SMD执行,并且多线程操作面对较高延迟存储器存取实现有效执行环境。在每个执行单元内的每个硬件线程具有专用高带宽寄存器文件和相关联的独立线程状态。执行是对能够进行整数、单和双精度浮点操作、SIMD分支能力、逻辑操作、超越操作和其它曲面细分操作的流水线是每时钟多议题的。当等待来自存储器的数据或共享功能中的一个时,在执行单元2708A-2708N内的相关性逻辑使等待线程休眠,直到所请求的数据被返回为止。虽然等待线程正休眠,但是硬件资源可致力于处理其它线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可执行针对像素着色器、片段着色器或包括不同的顶点着色器的另一类型的着色器程序的操作。[0324]在执行单元2708A-2708N中的每个执行单元在数据元素的阵列上操作。数据元素的数量是“执行尺寸”或用于指令的通道的数量。执行通道是用于数据元素访问、掩蔽和在指令内的流控制的执行的逻辑单元。通道的数量可独立于特定的图形处理器的物理算术逻辑单元ALU或浮点单元(FPU的数量。在一些实施例中,执行单元2708A-2708N支持整数和浮点数据类型。[0325]执行单元指令集包括SMD指令。各种数据元素可作为封装的数据类型被存储在寄存器中,并且执行单元将基于元素的数据尺寸来处理各种元素。例如,当在256位宽矢量上操作时,矢量的256位存储在寄存器中,并且执行单元在矢量上作为四个单独的64位封装的数据元素(四字QW尺寸数据元素)、八个单独的32位封装的数据元素双字DW尺寸数据元素)、十六个单独的16位封装的据元素字W尺寸数据元素或三十二个单独的8位封装的数据元素字节⑻尺寸数据元素来操作。然而,不同的矢量宽度和寄存器尺寸是可能的。[0326]—个或多个内部指令高速缓存例如2706被包括在线程执行逻辑2700中以对用于指令单元的线程指令进行高速缓存。在一些实施例中,一个或多个数据高速缓存例如2712被包括以在线程执行期间对线程数据进行高速缓存。在一些实施例中,采样器2710被包括以提供针对3D操作的纹理采样和针对媒体操作的媒体采样。在一些实施例中,采样器2710包括专用纹理或媒体采样功能以在向执行单元提供所采样的数据之前在采样过程期间处理纹理或媒体数据。[0327]在执行期间,图形和媒体流水线经由线程生成和分派逻辑将线程发起请求发送到线程执行逻辑2700。一旦一组几何对象被处理并光栅化成像素数据,则在着色器处理器2702内的像素处理器逻辑例如像素着色器逻辑、片段着色器逻辑等就被调用以进一步计算输出信息并使结果被写到输出表面例如颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中,像素着色器或片段着色器计算被内插在光栅化对象上的各种顶点属性的值。在一些实施例中,在着色器处理器2702内的像素处理器逻辑然后执行应用编程接口(API供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器2702经由线程分派器2704来将线程分派到执行单元例如2708A。在一些实施例中,像素着色器2702使用在采样器2710中的纹理采样逻辑来存取存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据上的算术运算计算针对每个几何片段的像素颜色数据,或丢弃一个或多个像素用于进一步处理。[0328]在一些实施例中,数据端口2714针对线程执行逻辑2700提供存储器存取机制以将经处理的数据输出到存储器以用于在图形处理器输出流水线上执行。在一些实施例中,数据端口2714包括或耦合到一个或多个高速缓存存储器例如数据高速缓存2712以经由数据端口来对数据进行高速缓存以用于存储器存取。[0329]图28是示出了根据一些实施例的图形处理器指令格式2800的方框图。在一个或多个实施例中,图形处理器执行单元支持具有在多种格式中的指令的指令集。实线框示出通常被包括在执行单元指令中的组成部分,而虚线包括可选的或只被包括在指令的子集中的组成部分。在一些实施例中,所述和所示的指令格式2800是宏指令,因为它们是被供应到执行单元的指令,与一旦指令被处理就从指令解码中产生的微操作不同。[0330]在一些实施例中,图形处理器执行单元固有地支持在128位指令格式2810中的指令。基于选定指令、指令选项和操作数的数量,64位压缩指令格式2830对于一些指令是可用的。固有的128位指令格式710提供对所有指令选项的访问,而一些选项和操作被限制在64位格式2830中。在64位格式2830中可用的固有指令根据实施例而不同。在一些实施例中,指令使用在索引字段2813中的一组索引值被部分地压缩。执行单元硬件基于索引值来引用一组压缩表,并使用压缩表输出来重构在128位指令格式2810中的固有指令。[0331]对于每个格式,指令操作码2812定义执行单元将执行的操作。执行单元并行地在每个操作数的多个数据元素当中执行每个指令。例如,响应于加法指令,执行单元在代表纹理元素或图片元素的每个颜色通道上执行同时加法操作。默认地,执行单元在操作数的所有数据通道上执行每个指令。在一些实施例中,指令控制字段2814通过某些执行选项例如通道选择例如预测)和数据通道顺序例如swizzle来实现控制。对于在128位指令格式2810中的指令,exec尺寸字段2816限制将并行地被执行的数据通道的数量。在一些实施例中,exec尺寸字段2816不可用于在64位压缩指令格式2830中使用。[0332]一些执行单元指令具有多达三个操作数,包括两个源操作数srcO2820、srcl2822和一个目的地2818。在一些实施例中,执行单元支持双目的地指令,其中目的地中的一个被暗示。数据操纵指令可具有第三源操作数例如SRC22824,其中指令操作码2812确定源操作数的数量。指令的最后一个源操作数可以是与指令一起通过的立即(硬编码)值。[0333]在一些实施例中,128位指令格式2810包括存取地址模式字段2816,其规定例如直接寄存器寻址模式还是间接寄存器寻址模式被使用。当直接寄存器寻址模式被使用时,一个或多个操作数的寄存器地址由在指令中的位直接提供。[0334]在一些实施例中,128位指令格式2810包括存取地址模式字段2826,其规定指令的地址模式和或存取模式。在一个实施例中,存取模式用于定义用于指令的数据存取对齐。一些实施例支持包括16字节对齐存取模式和1字节对齐存取模式的存取模式,其中存取模式的字节对齐确定指令操作数的存取对齐。例如,当在第一模式中时,指令可使用针对源和目的地操作数的字节对齐寻址,而当在第二模式中时,指令可使用针对所有源和目的地操作数的16字节对齐寻址。[0335]在一个实施例中,存取地址模式字段2826的地址模式部分确定指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,在指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。[0336]在一些实施例中,基于操作码2812位字段来对指令分组以简化操作码解码2840。对于8位操作码,位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅仅是个示例。在一些实施例中,移动和逻辑操作码组2842包括数据移动和逻辑指令例如,移动mov、比较cmp。在一些实施例中,移动和逻辑组2842共享五个最高有效位MSB,其中移动mov指令在OOOOxxxxb的形式中,而逻辑指令在OOOlxxxxb的形式中。流控制指令组2944例如调用、跳转(jmp包括在OOlOxxxxb例如0x20的形式中的指令。曲面细分指令组2846包括指令的混合,包括在OOllxxxxb例如0x30的形式中的同步指令例如等待、发送)。并行数学指令组2848包括在OlOOxxxxb例如0x40的形式中的逐个分量算术指令例如加法、乘法mul。并行数学组2848在数据通道上并行地执行算术运算。矢量数学组2850包括在OlOlxxxxb例如0x50的形式中的算术指令例如dp4。矢量数学组对矢量操作数执行算术,例如点积计算。[0337]额外的示例性图形流水线[0338]图29是另一实施例的图形处理器2900的方框图。具有与本文的任何其它附图的元件相同的附图标记或名称)的图29的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。[0339]在一些实施例中,图形处理器2900包括图形流水线2920、媒体流水线2930、显示引擎2940、线程执行逻辑2950和渲染输出流水线2970。在一些实施例中,图形处理器2900是在包括一个或多个通用处理核心的多核处理系统内的图形处理器。由到一个或多个控制寄存器未示出)的寄存器写入或经由通过环形互连2902发出到图形处理器2900的命令来控制图形处理器。在一些实施例中,环形互连2902将图形处理器2900耦合到其它处理部件,例如其它图形处理器或通用处理器。来自环形互连2902的命令由命令流式发送器2903解释,其中,命令流式发送器2903将指令供应到图形流水线2920或媒体流水线2930的单独部件。[0340]在一些实施例中,命令流式发送器2903指导顶点取出器2905的操作,顶点取出器2905从存储器读取顶点数据并执行由命令流式发送器2903提供的顶点处理命令。在一些实施例中,顶点取出器2905向顶点着色器2907提供顶点数据,其中,顶点着色器2907执行用于每个顶点的坐标空间变换和照明操作。在一些实施例中,顶点取出器2905和顶点着色器2907通过经由线程分派器2931将执行线程分派到执行单元2952A-2952B来执行顶点处理指令。[0341]在一些实施例中,执行单元2952A-2952B是具有用于执行图形和媒体操作的指令集的矢量处理器的阵列。在一些实施例中,执行单元2952A-2952B具有针对每个阵列特定的或在阵列之间共享的附接的Ll高速缓存2951。高速缓存可被配置为数据高速缓存、指令高速缓存或被划分以在不同的分区中包含数据和指令的单个高速缓存。[0342]在一些实施例中,图形流水线2920包括曲面细分部件以执行3D对象的硬件加速的曲面细分。在一些实施例中,可编程外壳hull着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。细化器2913在外壳着色器2911的方向处操作,并包含专用逻辑以基于作为输入被提供到图形流水线2920的粗几何模型来生成一组详细的几何对象。在一些实施例中,如果不使用曲面细分,则可绕过曲面细分部件例如外壳着色器2911、细化器2913和域着色器2917。[0343]在一些实施例中,完整的几何对象可由几何着色器2919经由被分派到执行单元2952A-2952B的一个或多个线程来处理,或可直接继续进行到限幅器2929。在一些实施例中,几何着色器在全部几何对象而不是如在图形流水线的先前级中的在顶点或顶点的补片上操作。如果曲面细分被禁用,则几何着色器2919从顶点着色器2907接收输入。在一些实施例中,如果曲面细分单元被禁用,则几何着色器2919由几何着色器程序可编程以执行几何曲面细分。[0344]在光栅化之前,限幅器2929处理顶点数据。限幅器2929可以是固定功能限幅器或具有限幅和几何着色器功能的可编程限幅器。在一些实施例中,在渲染输出流水线2970中的光栅化器和深度测试部件2973分派像素着色器以将几何对象转换成它们的每像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑2950中。在一些实施例中,应用可绕过光栅化器和深度测试部件2973并经由流输出单元2923来访问未光栅化的顶点数据。[0345]图形处理器2900具有互连总线、互连结构或允许数据和消息通过处理器的主要部件的某个其它互连机构。在一些实施例中,执行单元2952A-2952B和相关联的高速缓存2951、纹理和媒体采样器2954和纹理采样器高速缓存2958经由数据端口2956来互连以执行存储器存取并与处理器的渲染输出流水线部件通信。在一些实施例中,采样器2954、高速缓存2951、2958和执行单元2952A-2952B每个具有单独的存储器存取路径。[0346]在一些实施例中,渲染输出流水线2970包含将基于顶点的对象转换成相关联的基于像素的表示的光栅化器和深度测试部件2973。在一些实施例中,光栅化器逻辑包括窗口器掩蔽器单元以执行固定功能三角形和线光栅化。在一些实施例中,相关联的渲染高速缓存2978和深度高速缓存2979也是可用的。像素操作部件2977对数据执行基于像素的操作,虽然在一些实例中,与2D操作例如,利用混合的位块图像传送相关联的像素操作由2D引擎2941执行,或在显示时间由显示控制器2943使用覆盖显示平面来代替。在一些实施例中,共享L3高速缓存2975可用于所有图形部件,允许数据的共享而不使用主系统存储器。[0347]在一些实施例中,图形处理器媒体流水线2930包括媒体引擎2937和视频前端2934。在一些实施例中,视频前端2934从命令流式发送器2903接收流水线命令。在一些实施例中,媒体流水线2930包括单独的命令流式发送器。在一些实施例中,视频前端2934在将命令发送到媒体引擎2937之前处理媒体命令。在一些实施例中,媒体引擎2937包括线程生成功能以生成用于经由线程分派器2931分派到线程执行逻辑2950的线程。[0348]在一些实施例中,图形处理器2900包括显示引擎2940。在一些实施例中,显示引擎2940在图形处理器2900外部并经由环形互连2902或某个其它互连总线或结构与图形处理器耦合。在一些实施例中,显示引擎2940包括2D引擎2941和显示控制器2943。在一些实施例中,显示引擎2940包含能够独立于3D流水线而操作的专用逻辑。在一些实施例中,显示控制器2943与显示设备(未示出)耦合,显示设备可以是系统集成的显示设备,如在膝上型计算机中的,或经由显示设备连接器而附接的外部显示设备。[0349]在一些实施例中,图形流水线2920和媒体流水线2930可被配置为基于多个图形和媒体编程接口来执行操作,并且不是任一个应用编程接口(API特定的。在一些实施例中,用于图形处理器的驱动器软件将特定图形或媒体库所特有的API调用转换成可由图形处理器处理的命令。在一些实施例中,提供对都来自Khronos集团的开放图形库OpenGL、开放计算语音OpenCL和或Vulkan图形和计算API的支持。在一些实施例中,也可提供对来自微软公司的Direct3D库的支持。在一些实施例中,可支持这些库的组合。也可提供对开放源计算视觉库OpenCV的支持。如果可做出从未来API的流水线到图形处理器的流水线的映射,则也将支持具有可兼容的3D流水线的未来API。[0350]额外的示例性图形流水线编程[0351]图31A是示出了根据一些实施例的图形处理器命令格式3000的方框图。图31B是示出了根据实施例的图形处理器命令序列3010的方框图。图31A中的实线框示出了通常被包括在图形命令中的组成部分,而虚线包括可选的或只被包括在图形命令的子集中的组成部分。图31A的示例性图形处理器命令格式3000包括数据字段以标识命令的目标客户端3002、命令操作代码操作码)3004和针对命令的相关数据3006。子操作码3005和命令尺寸3008也被包括在一些命令中。[0352]在一些实施例中,客户端3002规定处理命令数据的图形设备的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理并将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、植染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的相对应的处理流水线。一旦命令由客户端单元接收,则客户端单元读取操作码3004,并且如果存在,子操作码3005确定要执行的操作。客户端单元使用在数据字段3006中的信息来执行命令。对于一些命令,显式命令尺寸3008被预期为规定命令的尺寸。在一些实施例中,命令解析器基于操作码来自动确定命令中的至少一些的尺寸。在一些实施例中,命令经由多个双字来对齐。[0353]图31B中的流程图示出了示例性图形处理器命令序列3010。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用被示为建立、执行和终止一组图形操作的命令序列的版本。仅为了示例的目的,示出并描述了样本命令序列,因为实施例不限于这些特定的命令或这个命令序列。而且,命令可在命令序列中作为批量命令发出,使得图形处理器将处理至少部分地并发的命令的序列。[0354]在一些实施例中,图形处理器命令序列3010可以以流水线刷新命令3012开始以使任何活动的图形流水线完成针对流水线的当前未决的命令。在一些实施例中,3D流水线3022和媒体流水线3024不并发操作。执行流水线刷新以使活动的图形流水线完成任何未决的命令。响应于流水线刷新,用于图形处理器的命令解析器将暂停命令处理,直到活动的绘图引擎完成未决的操作并且相关读高速缓存被无效为止。可选地,渲染高速缓存中的被标记为“脏的”任何数据可被刷新到存储器。在一些实施例中,流水线刷新命令3012可用于流水线同步或在将图形处理器置于低功率状态内之前使用。[0355]在一些实施例中,当命令序列需要图形处理器明确地在流水线之间切换时,使用流水线选择命令3013。在一些实施例中,在发出流水线命令之前,在执行上下文内只需要流水线选择命令3013—次,除非上下文用于发出针对两个流水线的命令。在一些实施例中,在经由流水线选择命令3013进行流水线切换之前,立即需要流水线刷新命令3012。[0356]在一些实施例中,流水线控制命令3014配置图形流水线以用于操作,并用于对3D流水线3022和媒体流水线3024编程。在一些实施例中,流水线控制命令3014配置针对活动流水线的流水线状态。在一个实施例中,流水线控制命令3014用于流水线同步并在处理批量命令之前从活动流水线内的一个或多个高速缓存存储器清除数据。[0357]在一些实施例中,返回缓冲器状态命令3016用于配置用于相应的流水线的一组返回缓冲器以写入数据。一些流水线操作需要对一个或多个返回缓冲器的分配、选择或配置,其中,在处理器期间操作将中间数据写入所述返回缓冲器内。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行交叉线程通信。在一些实施例中,返回缓冲器状态3016包括选择返回缓冲器的尺寸和数量以用于一组流水线操作。[0358]在命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定3020,命令序列被裁剪为以3D流水线状态3030开始的3D流水线3022或以媒体流水线状态3040处开始的媒体流水线3024。[0359]用于配置3D流水线状态3030的命令包括针对顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态和在3D原语命令被处理之前配置的其它状态变量的3D状态设置命令。至少部分地基于在使用中的特定3DAPI来确定这些命令的值。在一些实施例中,如果那些元素将不被使用,则3D流水线状态3030命令也能够选择性地禁用或绕过某些流水线元素。[0360]在一些实施例中,3D原语3032命令用于提交将由3D流水线处理的3D原语。经由3D原语3032命令传递到图形处理器的命令和相关联的参数被转发到在图形流水线中的顶点取出功能。顶点取出功能使用3D原语3032命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中,3D原语3032命令用于经由顶点着色器来对3D原语执行顶点操作。为了处理顶点着色器,3D流水线3022将着色器执行线程分派到图形处理器执行单元。[0361]在一些实施例中,经由执行3034命令或事件来触发3D流水线3022。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由在命令序列中的“go”或“kick”命令来触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以通过图形流水线来刷新命令序列。3D流水线将针对3D原语执行几何处理。一旦操作完成,所得到的几何对象就被光栅化并且像素引擎对所得到的像素上色。也可包括用于控制像素着色和像素后端操作的额外命令以用于那些操作。[0362]在一些实施例中,图形处理器命令序列3010在执行媒体操作时遵循媒体流水线3024路径。通常,针对媒体流水线3024的编程的特定使用和方式取决于待执行的媒体或计算操作。特定的媒体解码操作可在媒体解码期间被卸载到媒体流水线。在一些实施例中,也可绕过媒体流水线,并且可使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元GPGPU操作的元素,其中图形处理器用于使用不明确地与图形原语的渲染有关的计算着色器程序来执行S頂D矢量操作。[0363]在一些实施例中,以与3D流水线3022类似的方式配置媒体流水线3024。用于配置媒体流水线状态3040的一组命令在媒体对象命令3024之前被分派或放置到命令队列内。在一些实施例中,媒体流水线状态命令3040包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括用于配置在媒体流水线内的视频解码和视频编码逻辑例如编码或解码格式)的数据。在一些实施例中,媒体流水线状态命令3040也支持使用指向“间接”状态元素的一个或多个指针,所述“间接”状态元素包含批量状态设置。[0364]在一些实施例中,媒体对象命令3042提供指向媒体对象的指针以用于由媒体流水线的处理。媒体对象包括存储器缓冲器,其包含待处理的视频数据。在一些实施例中,在发出媒体对象命令3042之前,所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令3042被入队,则媒体流水线3042经由执行命令3044或等效的执行事件例如寄存器写入被触发。来自媒体流水线3042的输出可接着由3D流水线3022或媒体流水线3024所提供的操作来进行后处理。在一些实施例中,以与媒体操作类似的方式来配置并执行GPGPU操作。[0365]额外的示例性图形软件架构[0366]图31示出了根据一些实施例的用于数据处理系统3100的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用3110、操作系统3120和至少一个处理器3130。在一些实施例中,处理器3130包括图形处理器3132和一个或多个通用处理器核心3134。图形应用3110和操作系统3120每个在数据处理系统的系统存储器3150中执行。[0367]在一些实施例中,3D图形应用3110包含一个或多个着色器程序,其包括着色器指令3112。着色器语言指令可以用高级着色器语言,例如高级着色器语言HLSL或OpenGL着色器语言GLSL。应用还包括以适合于由通用处理器核心3134执行的机器语言的可执行指令3114。应用还包括由顶点数据定义的图形对象3116。[0368]在一些实施例中,操作系统3120是来自微软公司的Microsoft®Windows®操作系统、专用类UNIX操作系统或使用Linux内核的变形的开放源类UNIX操作系统。操作系统3120可支持图形API3122,例如Direct3DAPI、0penGLAPI或VulkanAPI。当使用Direct3DAPI时,操作系统3120使用前端着色器编译器3224来将以HLSL的任何着色器指令3112编译成较低级着色器语言。编译可以是可执行着色器预编译的恰好及时JIT编译或应用。在一些实施例中,高级着色器在3D图形操作3110的编译期间被编译成低级着色器。在一些实施例中,以中间形式例如由VulkanAPI使用的标准便携式中间表示SPIR的版本提供着色器指令3112。[0369]在一些实施例中,用户模式图形驱动器3126包含后端着色器编译器3127以将着色器指令3112转换成硬件特定表示。当使用OpenGLAPI时,以GLSL高级语言的着色器指令3112被传递到用户模式图形驱动器3126以用于编译。在一些实施例中,用户模式图形驱动器3126使用操作系统内核模式功能3128来与内核模式图形驱动器3129通信。在一些实施例中,内核模式图形驱动器3129与图形处理器3132通信以调度命令和指令。[0370]额外的示例性IP核心实现[0371]至少一个实施例的一个或多个方面可由存储在机器可读介质上的表示和或定义在集成电路例如,处理器)内的逻辑的代表性代码实现。例如,机器可读介质可包括表示在处理器内的各种逻辑的指令。当由机器读取时,指令可使机器制造逻辑以执行本文所述的技术。被称为“IP核心”的这样的表示是用于集成电路的逻辑的可重用单元,其可存储在有形、机器可读介质上作为描述集成电路的结构的硬件模型。硬件模型可被供应到各种消费者或制造设施,其在制造集成电路的制造机器上加载硬件模型。可制造集成电路,使得电路执行与本文所述的任何实施例相关联的所述操作。[0372]图32是示出了根据实施例的可用于制造集成电路以执行操作的IP核心开发系统3200的方框图。IP核心开发系统3200可用于生成可合并到较大的设计内的模块化、可重用设计,或用于构造整个集成电路例如SOC集成电路)。设计设施3230可以用高级编程语言例如C++生成IP核心设计的软件模拟3210。软件模拟3210可用于使用模拟模型3212来设计、测试和验证IP核心的行为。模拟模型3212可包括功能、行为和或定时模拟。寄存器传送级RTL设计3215可接着根据模拟模型3312被创建或合成。RTL设计3215是对在硬件寄存器之间的数字信号的流进行建模包括使用所建模的数字信号执行的相关逻辑的集成电路的行为的抽象。除了RTL设计3215以外,也可创建、设计或合成在逻辑级或晶体管级处的较低级设计。因此,初始设计和模拟的特定细节可改变。[0373]RTL设计3215或等效形式可进一步由设计设施合成为硬件模型3220,其可以用硬件描述语言HDL或物理设计数据的某个其它表示。HDL可进一步被模拟或测试以验证IP核心设计。可使用非易失性存储器3240例如硬盘、闪存或任何非易失性存储介质来存储IP核心设计用于输送到第三方制造设施3265。可选地,可通过有线连接3250或无线连接3260来发送例如经由互联网)IP核心设计。制造设施3265可接着制造至少部分地基于IP核心设计的集成电路。所制造的集成电路可被配置为根据本文所述的至少一个实施例来执行操作。[0374]额外的示例性片上系统集成电路[0375]图33-图35示出了根据本文所述的各种实施例的可使用一个或多个IP核心来制造的示例性集成电路和相关联的图形处理器。除了所示出的内容以外,还可包括其它逻辑和电路,包括额外的图形处理器核心、外围接口控制器户通用处理器核心。[0376]图33是示出了根据实施例的可使用一个或多个IP核心来制造的示例性片上系统集成电路3300。示例性集成电路3300包括一个或多个应用处理器3305例如CPU、至少一个图形处理器3310,并可另外包括图像处理器3315和或视频处理器3320,其中的任一项可以是来自相同或多个不同的设计设施的模块化IP核心。集成电路3300包括外围或总线逻辑,其包括USB控制器3325、UART控制器3330、SPISDI0控制器3335和I2SI2C控制器3340。此外,集成电路可包括耦合到高分辨率多媒体接口(HDMI控制器3350和移动工业处理器接口(MIPI显示接口3355中的一个或多个的显示设备3345。存储装置可由包括闪存和闪存控制器的闪存子系统3360提供。可经由存储器控制器3365来提供存储器接口用于存取SDRAM或SRAM存储器设备。此外,一些集成电路包括嵌入式安全引擎3370。[0377]图34是示出了根据实施例的可使用一个或多个IP核心来制造的片上系统集成电路的示例性图形处理器3410。图形处理器3410可以是图33的图形处理器3310的变形。图形处理器3410包括顶点处理器3405和一个或多个片段处理器3415A-3415N例如3415A、3415B、3415C、3415D到3415N-1和3415N。图形处理器3410可经由单独的逻辑来执行不同的着色器程序,使得顶点处理器3405被优化以针对顶点着色器程序执行操作,同时一个或多个片段处理器3415A-3415N针对片段或像素着色器程序执行片段例如像素着色操作。顶点处理器3405执行3D图形流水线的顶点处理级,并生成原语和顶点数据。片段处理器3415A-3415N使用由顶点处理器3405生成的原语和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中,片段处理器3415A-3415N被优化以执行如在OpenGLAPI中提供的片段着色器程序,其可用于执行与如在Direct3DAPI中提供的像素着色器程序相似的操作。[0378]此外,图形处理器3410包括一个或多个存储器管理单元MMU3420A-3420B、高速缓存3425A-3425B和电路互连3430A-3430B。一个或多个MMU3420A-3420B提供用于图形处理器3410包括用于顶点处理器3405和或片段处理器3415A-3415N的)的物理地址映射的虚拟,除了存储在一个或多个高速缓存3425A-3425B中的顶点或图像纹理数据以外,其还可引用存储在存储器中的顶点或图像纹理数据。在一个实施例中,一个或多个MMU3420-3430B可与在系统内的其它MMU同步,所述其它MMU包括与图33的一个或多个应用处理器3305、图像处理器3315和或视频处理器3320相关联的一个或多个MMU,使得每个处理器3305-3320可参与共享或统一虚拟存储器系统。根据实施例,一个或多个电路互连3430A-3430B使图形处理器3410能够经由SoC的内部总线或经由直接连接来与在SoC内的其它IP核心通接合。[0379]图35是示出了根据实施例的可使用一个或多个IP核心来制造的片上系统集成电路的额外示例性图形处理器3510的方框图。图形处理器3510可以是图33的图形处理器3310的变形。图形处理器3510包括图34的集成电路3400的一个或多个MMU3420A-3420B、高速缓存3425A-3425B和电路互连3430A-3430B。[0380]图形处理器3510包括提供统一着色器核心架构的一个或多个着色器核心3515A-3515N例如3515A、3515B、3515C、3515D、3515E、3515F到3515N-1和3515N,其中单个核心或类型或核心可执行所有类型的可编程着色器代码,包括实现顶点着色器、片段着色器和或计算着色器的着色器程序代码。存在的着色器核心的确切数量可在实施例和实现当中改变。此外,图形处理器3510包括核心间任务管理器3505,其充当用于将执行线程分派到一个或多个着色器核心3515A-3515N的线程分派器和用于加速针对基于瓦片的渲染的瓦片化操作的瓦片化单元3518,其中针对场景的渲染操作在图像空间中被细分,例如以利用在场景内的本地空间一致性或优化内部高速缓存的使用。[0381]本文所述的实施例可被实现为下列项的任一个或组合:使用主板、而互连的一个或多个微芯片或集成电路、硬连线逻辑、由存储器设备存储并由微处理器执行的软件、固件、专用集成电路ASIC和或现场可编程门阵列FPGA。术语“逻辑”可作为示例包括软件或硬件和或软件和硬件的组合。[0382]实施例可例如被提供为计算机程序产品,其可包括具有存储于其上的机器可执行指令的一个或多个机器可读介质,所述机器可执行指令当由一个或多个机器(例如计算、计算机网络或其它电子设备执行时可导致一个或多个机器实现根据本文所述的实施例的操作。机器可读介质可包括但不限于软盘、光盘、CD-ROM光盘只读存储器和磁光盘、R0M、RAM、EPROM可擦除可编程只读存储器)、EEPR0M电可擦除可编程只读存储器)、磁卡或光卡、闪存或适合于存储机器可执行指令的其它类型的非暂时性机器可读介质。[0383]下文的语句和或示例属于特定的实施例或其示例。在一个或多个实施例中,可在任何地方使用在示例中的细节。不同实施例或示例的各种特征可与被包括的一些特征和被排除的其它特征组合以适合各种不同的应用。示例可包括根据本文所述的实施例和示例的主题,例如方法、用于执行方法的行动的模块、包括指令的至少一个机器可读介质,所述指令当由机器执行时使机器执行方法的行动、或装置或系统的行动。各种部件可以是用于执行所述操作或功能的单元。[0384]其它实施方式提供一种用于在分布式计算系统的多个计算节点之间发送数据的方法,该方法包括创建要在分布式计算系统的多个计算节点之间执行的通信操作的全局视图,全局视图使用与分布式计算系统相关联的机器学习模型特定的信息来创建;使用全局视图来确定通信操作的通信成本;以及自动确定多个网络操作以用于在分布式计算系统的多个计算节点之间发送数据时使用。[0385]—个实施例提供一种用于计算并分配数据以用于神经网络的分布式训练的系统,该系统包括用于存储一组可训练的机器学习参数的系统存储器和用于有利于在神经网络的分布式训练期间的数据传输的库;用于实现与这组可训练的机器学习参数相关联的数据的传输和接收的结构接口;用于执行由库提供的指令的第一组通用处理器核心,所述指令控制数据传输库;以及用于执行与机器学习框架工作流相关联的计算操作以生成针对可训练的机器学习参数的梯度数据的通用图形处理器,其中第一组通用处理器核心控制数据传输库以在机器学习框架工作流期间经由结构接口来发送和接收训练数据,计算操作与通信操作重叠以经由结构接口来发送和接收训练数据,通信操作经由通过结构接口提供的点对点通信原语来被执行。[0386]本领域中的技术人员从前述描述中将认识到,实施例的广泛技术可在各种形式中实现。因此,虽然实施例结合其特定的示例被描述,但是实施例的真实范围不应被这样限制,因为当研究附图、说明书和接下来的权利要求时,其它实施例将对有技能的从业人员而言变得显而易见。
权利要求:1.一种用于计算并且分发数据以用于神经网络的分布式训练的系统,所述系统包括:第一存储器,其存储包括机器学习框架的第一组指令;结构接口,其实现与一组可训练机器学习参数相关联的数据的传输和接收;第一组通用处理器核心,其执行所述第一组指令,所述第一组指令提供训练工作流以用于针对所述可训练机器学习参数的梯度的计算并且与第二组指令通信,所述第二组指令有利于经由所述结构接口来传输和接收所述梯度;以及图形处理器,其执行与所述训练工作流相关联的计算操作以生成针对所述可训练机器学习参数的所述梯度。2.如权利要求1所述的系统,所述第二组指令包括一组点对点通信原语以经由所述结构接口来执行一组预定义的通信操作。3.如权利要求2所述的系统,所述结构接口包括用于加速所述预定义的通信操作的至少一部分或所述点对点原语的至少子集的硬件。4.如权利要求3所述的系统,所述预定义的通信操作包括存储与通知操作和远程过程调用。5.如权利要求3所述的系统,所述预定义的通信操作另外包括远程原子存储器操作。6.如权利要求3所述的系统,所述预定义的通信操作另外包括加载与聚集列表和存储与分散列表。7.如权利要求3所述的系统,所述结构接口与被配置用于所述神经网络的分布式训练的多个计算节点通信地耦合,所述计算节点中的至少两个经由所述结构接口被间接地连接,其中,所述结构接口在间接连接的计算节点之间对消息进行路由。8.如权利要求7所述的系统,所述结构接口基于与所述消息相关联的目标存储器地址来在所述间接连接的计算节点之间对所述消息进行路由。9.如权利要求1所述的系统,另外包括与所述图形处理器耦合的第二存储器,所述第二存储器存储针对所述可训练机器学习参数的所述梯度。10.如权利要求9所述的系统,所述结构接口具有映射到所述第二存储器的至少一部分的虚拟地址空间。11.如权利要求10所述的系统,其中,所述第二存储器是在所述结构接口和所述图形处理器之间共享的物理存储器。12.如权利要求11所述的系统,所述图形处理器将所述梯度存储到所述第二存储器,并且所述结构接口发送来自所述第二存储器的所述梯度。13.—种图形处理单元,包括:计算块,其包括一个或多个处理集群,所述一个或多个处理集群执行与机器学习框架工作流相关联的计算操作,所述计算操作生成与神经网络的可训练参数相关联的梯度数据;存储器设备,其存储在所述神经网络的分布式训练期间的梯度数据;以及结构接口,其与所述存储器设备耦合,所述结构接口发送存储在所述存储器设备中的梯度数据,其中,所述存储器设备是与所述计算块共享的物理存储器设备。14.如权利要求13所述的图形处理单元,所述结构接口包括高速缓存,所述高速缓存在所述梯度数据的传输之前或在所述梯度数据的接收之后存储梯度数据。15.如权利要求13所述的图形处理单元,其中,所述结构接口具有映射到所述存储器设备的至少一部分的地址空间。16.如权利要求15所述的图形处理单元,其中,所述计算块和所述结构接口具有统一地址空间。17.—种计算并且分发数据以用于神经网络的分布式训练的方法,所述方法包括:将第一组指令存储在第一存储器中,所述第一组指令包括机器学习框架;经由结构接口实现与一组可训练机器学习参数相关联的数据的传输和接收;经由一组通用处理器核心来执行所述第一组指令,其中,执行所述第一组指令包括提供训练工作流以用于针对所述可训练机器学习参数的梯度的计算以及与第二组指令通信,所述第二组指令有利于经由所述结构接口来传输和接收所述梯度;以及经由图形处理器来执行与所述训练工作流相关联的计算操作,其中,执行所述计算操作包括生成针对所述可训练机器学习参数的所述梯度。18.如权利要求17所述的方法,另外包括经由所述结构接口来执行第二指令的至少一部分,所述第二组指令使所述结构接口发送所述梯度。19.如权利要求18所述的方法,另外包括经由在所述结构接口上的处理器来执行所述第二指令的至少一部分。20.如权利要求17所述的方法,另外包括将所述结构接口的虚拟地址空间映射到与所述图形处理器共享的统一地址空间。21.—种存储数据的非暂时性机器可读介质,所述数据当由至少一个机器读取时,使得所述至少一个机器装配至少一个集成电路以执行如权利要求17-20中的任一项所述的计算并且分发数据以用于神经网络的分布式训练的方法。22.—种存储指令的非暂时性机器可读介质,所述指令当由一个或多个处理器执行时,使得所述一个或多个处理器执行操作以计算并且分发数据以用于神经网络的分布式训练,所述操作包括:将第一组指令存储在第一存储器中,所述第一组指令包括机器学习框架;经由结构接口实现与一组可训练机器学习参数相关联的数据的传输和接收;经由一组通用处理器核心来执行所述第一组指令,其中,执行所述第一组指令包括提供训练工作流以用于针对所述可训练机器学习参数的梯度的计算以及与第二组指令通信,所述第二组指令有利于经由所述结构接口来传输和接收所述梯度;以及经由图形处理器来执行与所述训练工作流相关联的计算操作,其中,执行所述计算操作包括生成针对所述可训练机器学习参数的所述梯度。23.如权利要求22所述的非暂时性机器可读介质,另外包括经由所述结构接口来执行第二指令的至少一部分,所述第二组指令使所述结构接口发送所述梯度。24.如权利要求23所述的非暂时性机器可读介质,另外包括经由在所述结构接口上的处理器来执行所述第二指令的至少一部分。25.如权利要求22所述的非暂时性机器可读介质,另外包括将所述结构接口的虚拟地址空间映射到与所述图形处理器共享的统一地址空间。
百度查询: 英特尔公司 用于机器学习的硬件实现的点对点通信原语
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。