双倍的性能,双倍的快乐:英伟达RTX 30系显卡架构解析

2020-09-07 08:38:29 作者: 双倍的性能,

英伟达在北京时间9月2日举办新品发布会,正式发布了全新的英伟达RTX 30系显卡,包括RTX 3070、RTX 3080以及RTX 3090,采用了最新的安培架构以及高度定制的三星的8nm制程工艺,在性能上也取得了极大的提升,可以说几乎横扫了所有的20系显卡。

英伟达官方表示RTX 3080拥有2倍的RTX 2080的性能,而RTX 3070则超过了RTX 2080 Ti,至于最旗舰的RTX 3090更是能够满足8K分辨率和60帧的终极目标,而第三代深度学习单元,第二代的RTX光追处理单元又让新一代显卡更加出色,那么为什么今年的30系显卡如此给力,它又有什么黑科技呢?

目前英伟达举办了关于30系安培显卡的技术讲解会,详细地介绍了新一代的安培架构,也介绍了在安培显卡上所采用的全新的图形特性。而在本文中我们也将浅显地介绍安培架构,此外也将为大家带来英伟达在30系显卡上所采用的众多黑科技。

架构的革新:CUDA数量大幅提升

对于新一代显卡来说,架构的改进能够极大地提升显卡的性能,而光线追踪游戏的加入又让英伟达的显卡在架构上有着革命性的变化,这种变化在20系显卡中就已经初显端倪,英伟达在20系显卡中除了传统的FP32计算单元之外也额外加入了RT计算单元以及Tensor Core计算单元,其中RT计算单元用于光追的计算,而Tensor Core则是降低实际图形的渲染分辨率,降低GPU的运算压力,让光追游戏更加流畅。

而到了30系显卡,英伟达又对安培架构进行了更新和改良,其中最大的改动便是更改了每个SM单元中的FP32单元。图灵架构中一个SM单元拥有一个FP32计算单元,此外还包括RT Core,Tensor Core与INT32计算单元。而到了安培架构,英伟达在一个SM单元中除了设立了独立的FP32计算单元外,还额外让INT 32与FP32共享一个计算单元,也就是说在安培架构显卡中,每一个SM单元的构成为独立的FP32和INT 32与FP32的组合单元与Tensor Core计算单元。

和图灵显卡相比,安培架构单个用于负责FP32计算的单元翻倍,因此消费者看到的是30系显卡相当夸张的单精度性能以及CUDA数量。其中RTX 3070拥有5888个CUDA,RTX 3080拥有8704个CUDA,RTX 3090拥有10496个CUDA,让性能也能得到极大的提升,RTX 3080的单精度浮点可以达到30T之多。和图灵显卡相比,安培显卡除了能够提供2倍的FP32性能之外,在L1的带宽速度也提升了2倍,容量提升了33%,而第二代的光追计算单元和第三代Tensor Core能够拥有2倍的多边形渲染与稀疏矩阵的性能。

并且为了能够与30系显卡暴增的CUDA相搭配,全新一代的显卡也采用了美光最新的GDDR6X显存,全新的GDDR6X显存采用了四级脉冲幅度调制(PAM4)信令,可在不增加SGRAM功耗的情况下显着提高性能,让显卡拥有更高的显存带宽,其中旗舰版的RTX 3090甚至拥有1TB/S的显存带宽,从而也能极大程度地提升游戏性能。30系显卡最高能够拥有1.9倍的RTX 20系显卡的能耗比。

三星8nm制程:更多晶体管带来性能飞跃

从上述架构描述便可以看到,和图灵显卡相比,安培显卡在规模上得到了极大的提升,这就需要更多的晶体管以及计算单元才可以实现。而图灵显卡所采用的12nm FNN工艺已经达到了极限,而显卡的GPU面积又不能无限扩大,因此更换制程工艺成为了提升显卡晶体管的不二法门了。

英伟达在Tesla A100计算卡上选择的是台积电的7nm制程工艺,不过在安培显卡上使用的是深度定制的三星的8nm制程工艺,英伟达将其称之为三星8N。和12nm FNN制程相比,三星8nm工艺可以带来更高的晶体管密度,从而在相同Die面积下塞入更多的晶体管。英伟达称面积最大的GA 102可以拥有280亿个晶体管,这个数量是图灵显卡的1.5倍,不过与A100计算卡的542亿个晶体管相比,还是少了很多,这额外增加的140亿个晶体管自然是增加到了Tensor、RT以及FP32计算单元中,从而确保30系显卡能够拥有如同怪兽般的规格与性能。

很多消费者会疑问,为什么新一代安培显卡在光追以及深度学习性能上比图灵显卡强这么多,在这一次的技术讲解会上,英伟达也详细地为大家介绍了在安培架构下的帧生成时间。

首先是帕斯卡架构,这个架构采用的是传统的FP32计算单元,没有光追架构和深度学习架构,在进行传统游戏的帧生成时间为12ms,但是如果遇到拥有光线追踪的游戏,那么帕斯卡架构只能依靠SM单元强行运算,极大地降低了游戏的速率,帧生成时间也提升至92ms。

而到了图灵显卡,由于对SM单元进行了优化,此外也加入了RT单元和Tensor Core单元,因此纯SM单元计算光追的帧生成时间为51ms,已经比帕斯卡要快得多,而独立的RT单元让帧生成时间降低至19ms,而如果加入DLSS,那么帧生成时间则缩减至13ms,已经与传统游戏无异。

至于安培架构,英伟达对SM单元的光追性能进行了再一次的改良和强化,如今使用安培架构的显卡纯RT运算的帧生成时间为11ms,而加入了DLSS则降低至7.5ms,要是游戏支持第二代的RT以及DLSS,那么帧生成时间甚至可以降低至6.7ms,已经是帕斯卡渲染传统游戏的一半时间,自然在性能上更加出色。

RTX IO:游戏瞬间完成加载

2020年是游戏设备更新换代的一年,目前在游戏机领域, 包括索尼和微软都表示通过最先进的技术让游戏的加载时间成倍降低,其中索尼表示PS5所集成的超高速SSD让游戏加载时间降低到一个相当喜人的成绩。而这一次英伟达也推出了全新的RTX IO技术,通过GPU与SSD之间进行数据交换,从而降低游戏的加载时间,提升玩家们的游戏体验。

英伟达称,传统的数据交换是由硬盘中的文件先与CPU和内存进行数据交换,随后CPU将这些数据与显卡进行交换,也就是说以CPU为数据中心进行传输,这样子在运行游戏的时候,考验的是CPU的性能。过去由于硬盘的速度没有达到一个很高的水平,因此CPU的性能尚且可以应付数据流。

而如今随着SSD的速度越来越大,CPU处理数据流的压力也越来越多,所需要的CPU处理单元也日益增高,尤其是PCIe 4.0的数据量,更是让CPU压力巨大,自然处理其他方面的单元就少了很多。英伟达以HDD所需的CPU性能为1,如果让CPU处理基于PCIe 4.0通道传输的压缩数据流,那么需要24的CPU性能,显然极其影响CPU发挥其作用。

 1/2    1 2 下一页 尾页