GeForce GTX260+采用NVIDIA目前最新的GT200图形核心,GT200图形核心采用了NVIDIA的第二代统一渲染架构,它为GeForce GTX280/260带来了非常明显的性能提升,相比GeForce 8或9系列GPU平均提升幅度达到了1.5倍以上。最新的GT200显示核心依然由台积电代工的65nm工艺制造,在芯片内部集成了大约14亿的晶体管数量,要比以往的任何一款GPU都更加复杂。并且,NVIDIA还提高了性能/瓦特的比值,让GT200系列GPU拥有更高的性能。
基于GT200图形核心的显卡包括GTX280和GTX260,现在又多了GTX260+。下图是GT200核心一个基本的流处理器阵列,包括24个流处理器单元和8个纹理单元,以及高速的一级缓存。NVIDIA主要通过控制流处理阵列的方式来调整产品之间的性能差异,同时区隔出不同的市场定位区间。
『GTX200图形芯片每个流处理阵列的内部结构』
下面我们谈谈GTX260+和GTX280、GTX260之间的区别,它就是基于上面所说的流处理器阵列数量的不同,下面是GTX280和GTX260图形核心的逻辑架构图。
可以看出,GTX280包含最完整的10个流处理器阵列,因此拥有240个流处理器单元和80个纹理单元,同时,GTX280还拥有32个Rop图形后处理单元,因此显存位宽为512bit(显存容量为1GB)。而GTX260的核心则被屏蔽了2个流处理器阵列,因此拥有192个流处理器数量和64个纹理单元,同时还被屏蔽的包括1组Rop阵列(4个Rop单元),GTX260的显存位宽于是被控制在448bit(显存容量为896MB)。
前面我们已经谈到,GTX260+最为直接的架构改变就是增加了流处理器单元的数量和纹理单元的数量,而实现的方式就是相比GTX260少屏蔽了1组流处理器阵列,从而达成了216个流处理器单元和72个纹理单元的数量,而Rop则保持和GTX260同样的规格,为28个Rop单元,448bit的显存位宽和896MB的显存容量。
| GTX280、GTX260和GTX260+架构规格的区别 | ||||||
| sp阵列 | sp单元 | 纹理单元 | Rop数量 | 显存位宽 | 显存容量 | |
| GTX280 | 10 | 240 | 80 | 32 | 512bit | 1GB |
| GTX260 | 8 | 192 | 64 | 28 | 448bit | 896MB |
| GTX260+ | 9 | 216 | 72 | 28 | 448bit | 896MB |
或许对这些流处理器数量的增加,有些消费者者持不屑的态度,毕竟竞争对手的HD4870拥有高达800个流处理器单元,我们要说的是,GT200和RV770架构是没有直接对比的意义的。NVIDIA的统一和运算架构采用两种不同的处理模式。对于TPC的执行,架构是MIMD(多重指令,多重数据)模式;而对于SM执行,架构就成了SIMT(单一指令,多重线程)模式。SIMT对SIMD(单一指令,多重数据)从性能和每一条可编程序两方面加以改进。作为标量,SIMT并没有设置矢量宽度,所以可以全速执行运算,而不用估计矢量大小。
正好相反,如果输入数据小于MIMD或者SIMD 的宽度的话,SIMD会以低速运算。SIMT可以确保处理器核心一直处于完全被利用状态。从编程人员的角度看,SIMT模式允许每一条线程占据各自的路径。由于分支过程由硬件操控,所以没有必要在矢量宽度中管理分支。在下一页我们会再谈一写关于NVIDIA架构效率的优势问题。