随着AI展现出愈发强大的性能,以及摩尔定律走向式微,用AI算力来代替传统的硬件堆叠悄然成为业界共识,并快速渗透到游戏、创意内容、工程与设计中,AI带来的便利性很快受到了各方认可。
而NVIDIA对于前沿用户的潜在需求是非常敏锐的,在Hopper和Ada Lovelace微架构之后,NVIDIA在2024年3月18日的GTC 2024主题演讲中正式公布了Blackwell架构,并在CES 2025上将其带入消费级产品线,GeForce RTX 50系列GPU应运而生。
Blackwell微架构命名源自于统计学家和数学家David H. Blackwell,以纪念他在博弈论、概率论、信息论和统计学领域做出的重大贡献。有意思的是,这些领域也直接或者间接推动了基于Transformer模型的生成式AI模型设计和算法训练,从而也奠定了NVIDIA Blackwell GPU中DLSS Transformers的基础,形成了奇妙的闭环。
统计学家和数学家David H. Blackwell
NVIDIA Blackwell在工艺进程节点上变化不算太大,采用了台积电定制的4NP节点制造,相当于Hopper和Ada Lovelace的4N工艺节点的加强版,在原有的基础上添加一定的金属层,从而获得更高的效率。因此基于Blackwell架构的完整GB100芯片拥有1040亿个晶体管,相比Hopper GH100 GPU的800亿个晶体管数量,增加了30%。
消费端顶配的GeForce RTX 5090和GeForce RTX 5090 D使用的是GB202芯片,拥有922亿个晶体管,芯片面积Die Size达到750mm2,比GeForce RTX 4090的AD102大20%。
很显然,这块型号名为GB202的Blackwell架构GPU在未来一段时间直接代表着消费端发烧友、游戏玩家最高的体验水准,它的设计基于什么样的理念出发,如何在成本可控的范围内显著的提升效率,玩家是如何从中获得画质、流畅度体验,都是本篇内容尝试探讨的问题。
在CES 2025期间,笔者有幸参加了GeForce RTX 5090为主题的NVIDIA Editors Day,挖掘Blackwell GPU背后的诸多细节。按照惯例,如果赶时间,可以完成第一章节阅读即可,或者参考前段时间笔者撰写的《NVIDIA Blackwell GPU技术浅析:AI正在回归GeForce》,都可以帮助你在短时间内快速了解Blackwell。而如果想深入了解这块GPU,则不妨跟本文一起,走马观花的了解一些技术相关更有意思的细节。
Blackwell概览:用AI撬动AI
从整体上来看,NVIDIA Blackwell GPU目标是通过AI神经渲染和神经着色技术在游戏和应用中获得更高效率,包括生成式AI渲染和实时应用,其中包括DLSS超分辨率(DLSS Super Resolution)和帧生成(Frame Generation)的性能显著提升,以更低的运算成本获得与原画质相当,甚至更好的图像质量。
另外DLSS光线重建(DLSS Ray Reconstruction, RR)也通过AI的方式降噪和重建缺失的细节,大幅度减少生成高质量光线追踪、路径追踪场景所需的光线数量。这一套基于AI的组合拳持续的降低计算成本和内存占用,从而释放GPU性能,进一步获得更高的帧率和更好的画质。
因此Blackwell GPU设计目标有四个,分别是:
针对新的伸进工作负载进行优化
尽可能减少显存占用量
提升画质
提升效能
围绕这四个设计目标,进一步扩展出NVIDIA Blackwell GPU架构的关键特性,分别是:
针对神经着色打造的流式多处理器(Streaming Multiprocessor, SM):Blackwell使用了新的RT Core和Tensor Core设计,进一步增强了神经渲染能力。相比于上一代的Ada Lovelace,NVIDIA RTX Blackwell SM在每个时钟周期内提供了翻倍的整数运算吞吐量,从而有助于提升神经着色至关重要的地址生成工作负载。
更高效的Max-Q:RTX Blackwell集成了许多新的Max-Q特性电源管理特性,在需要时,可以通过电源门控技术关闭一部分硬件模块。同时,不同硬件模块会被分配到不同的电源轨上,以避免不必要的浪费,从而实现精确的能效控制。顺带一提,新版的Max-Q也能可以更细节的调整时钟频率。
第四代RT Core:Blackwell RT Core架构再次进行了调整,能够更高效的提供光线追踪效果,以及更好的支持神经渲染技术。
第五代Tensor Core:首次引入对FP4浮点运算支持,作为更低位的浮点运算格式,可以更好的满足现阶段AI应用加速和游戏中AI渲染的需求,并能使AI吞吐量翻倍,内存需求减半。另外,这一代Tensor Core还保留了数据中心版本Blackwell GPU的第二代FP8 Transformer Engine。
NVIDIA DLSS 4:这项技术在未来一段时间将成为提升游戏流畅度和体验的重要技术,在RTX Blackwell架构下引入了AI多帧生成技术,DLSS 4帧率比DLSS 3和DLSS 3.5提升了2倍之多,并且画质会更好,系统延迟更低。
RTX神经着色器(RTX Neural Shaders):首次将小型神经网络引入可编程着色器中。
AI计算管理器(AI Management Processor, AMP):让多个AI模型可以和GPU图形工作负载时候共享对应的资源。这项功能已经与微软展开合作,实现了对Cooperative Vectors的支持,从而衍生出后面会被经常提到的神经渲染(Neural Rendering)渲染技术,从而实现细节更丰富的场景、复杂的光线追踪效果。另外,笔者认为AMP可能也是控制GeForce RTX 5090 D的AI性能表现的关键。
GDDR7显存:GDDR7是最新的超低压GDDR内存标准,通过PAM3脉冲幅度调制信号技术实现,相比GDDR6X的PAM4更节能,并且抗噪能力更好,对应的电路设计也更为简单一些。显然GDDR7由PAM4回归PAM3是综合了性能和成本的考虑。对于大部分用户而言,只需要知道最终产品显存容量更大就可以了。
Mega Geometry技术:这是一项新的RTX技术,旨在大幅提升光线追踪应用中的几何细节。
目前为止,首发采用RTX Blackwell GPU的产品包括GeForce RTX 5090,GeForce RTX 5090 D,GeForce RTX 5080,GeForce RTX 5070 Ti 和 GeForce RTX 5070。其中GeForce RTX 5090和GeForce RTX 5090 D的核心信号是GB202,GeForce RTX 5080和GeForce RTX 5070 Ti核心是GB203,GeForce RTX 5070是GB205。
接下来我们将会对RTX Blackwell中的技术细节进行浅析。
最强游戏芯片:Blackwell GB202 GPU
按照NVIDIA惯例,每一个新的GPU微架构都需要确定明确的设计目标,Turing架构时引入RT Core、Tensor Core,Ampere架构升级SM,增强RT Core和Tensor Core,以及Ada Lovelace增强光线追踪性能和AI神经图形的质量,并追加了DLSS帧生成和光线重建功能,成为光线追踪和神经图形进入主流的转折点。
Turing架构推出之后,能够看到,现在每帧游戏所需的AI TPOS算力随着每一代GPU架构升级呈现出几何级增长的趋势。这让GPU在图形质量和性能上的表现超越了摩尔定律,以一种全新的方式增长。比如DLSS光线重建(DLSS Ray Reconstruction, DLSS RR)能够大幅度减少所需要发射和着色的光线数量,让路径追踪实现逼真的光照成为可能。
每帧的AI TOPS正在逐年大幅提升
Blackwell首次引入了DLSS 4并具备多帧生成技术,除了提升游戏性能和降低系统延迟,新技术还带来了新的神经渲染技术,包括RTX 神经材质(RTX Neural Materials),RTX神经面部(RTX Neural Faces),RTX神经辐射缓存(RTX Neural Radiance Cache, NRC),以及基于AI的Transformer模型来获得高质量的图像生成。
在消费端提供这些技术的硬件基础的Blackwell GB202 GPU。
完整的GB202 GPU包括12个GPC(Graphics Processing Clusters,图形处理集群),96个TPC(Texture Processing Clusters,纹理处理集群),192个SM(Streaming Multiprocessors,流式多处理器),以及1个512-bit内存接口,配备有16个32-bit内存控制器,用于对显存进行控制。
值得注意,GB202 GPU还包含了384个FP64核心,即每SM包含两个,FP64 TFLOP速率是FP32 TFLOP速率的1/64,对于消费端而言使用频率不高,但可以保证FP64代码可以被正确的执行。对应的,Tensor Core也包含了少量的FP64 Tensor来确保程序的正确执行。
GPC(Graphics Processing Clusters,图形处理集群)是所有Blackwell GB20x GPU最主要运算单位,每个关键图形处理单元都会摆放在GPC中,每个GPC包括一个专用的光栅引擎(Raster Engine),2组ROP集群(Raster Operations,光栅操作),每个光栅操作分区包括8个独立的ROP单元,8个TPC(Texture Processing Clusters,纹理处理集群),每个TPC包含1个PolyMorph引擎和2个SM(Streaming Multiprocessors,流式多处理器)。
其中PolyMorph引擎主要用于处理图形和计算任务中的几何变换和曲面细分,在处理复杂几何图形的时候,可以获得更高效的多任务能力。
完整的GB202 GPU还包含了128MB L2缓存,GeForce RTX 5090则包含96MB L2缓存,所有的应用在大容量高速缓存中都能受益,特别是光线追踪和路径追踪这样的复杂操作。
因此,完整的GB202 GPU包括:
24576 个CUDA Core
192个第四代 RT Core
768个第五代Tensor Core
768个纹理单元(Texture Units)
需要注意,GeForce RTX 5090也并非使用完整的GB202核心,而是做了一定程度删减。
SM(Streaming Multiprocessors,流式多处理器)是NVIDIA GPU架构中的核心部件,也是GPU可以完成大规模并行任务的关键,比如CUDA Core,Tensor Core,RT Core都包含其中。完整的GB202包括192个SM,每个SM包括128个CUDA Core,1个第四代RT Core,4个第五代Tensor Core,4个纹理单元(Texture Units),1个512KB寄存器文件,128KB L1共享缓存,这些缓存可以根据图形和计算工作负载需求进行重新配置。
Blackwell架构下,INT32整数运算相比Ada Lovelace是翻倍的。原因是INT32和FP32核心进行了完全统一,这也体现了Blackwell SM针对神经网络着色器设计和优化。当然,这也意味着在同一个时钟周期内,只能进行FP32或者INT32其中一个操作。
GeForce RTX 5090的纹理单元(Texture Units)又GeForce RTX 4090的512个增加到了680个。纹理单元负责处理纹理映射操作,包括从纹理中获取纹理元素(Texels),应用纹理过滤以及纹理坐标处理等等。其中纹理元素(Texels)代表纹理信息、颜色、图案,这些信息被应用于3D表面,定义了物体表面纹理外观。
由于纹理单元增加,GeForce RTX 5090双线性过滤纹理元素处理速率达到了1636.76 Gigatexels/sec,对比GeForce RTX 4090的1290.2 Gigatexels/sec提升了26%。另外RTX Blackwell SM 相比Ada Lovelace SM在每个周期处理点采样纹理的性能也翻倍了,纹理访问的算法也会得到对应的加速。
GDDR7内存子系统
NVIDIA GPU在行业内不可动摇的影响力也直接推动了显存的发展。现在显存架构、电路设计和信号传输都已经围绕GPU内存速度展开匹配。比如Ampere GPU推动了GDDR6X的实装,GeForce RTX 4090更是把GDDR6X的峰值带宽提升到了1TB/s。
GeForce RTX 5090上的GDDR7是全新的超低电压GDDR内存标准,使用了3个电平的脉冲幅度调制PAM3,这是由NVIDIA与JEDEC技术协会,以及360多家成员公司共同推动的。
由GDDR6X PAM4转向GDDR7 PAM,且结合新的引脚编码方案,可以让GDDR7信噪比显著提升,并且可以让独立通道数量翻倍,可以更大程度减少I/O密度开销。通过改进PAM3信噪比,以及均衡方案,重新设计时钟架构,PAM3让GDDR7获得了显著的带宽提升。与此同时,GeForce RTX 50系列还支持增强型CRC(循环冗余检验)和RAS(可靠性、可靠性、可维护性)要求。
GeForce RTX 5090配备了28Gbps GDDR7显存,提供1.792TB/s峰值内存带宽。同时,GeForce RTX 5080提供了30Gbps GDDR7显存,提供960GB/s峰值内存带宽。其中主要原因是GeForce RTX 5080的显存是16GB。
第五代Tensor Core:引入FP4
Tensor Core中门用于矩阵乘法累加数学运算而设计,乘法累加器被广泛引用于AI和HPC领域。Blackwell Tensor Core支持FP16、BF16、TF32、INT8、INT4和Hopper FP8 Transformer引擎,同时还新增了对FP4和FP6 Tensor,以及第二代FP8 Transformer引擎,与数据中心级Blackwell GPU相似。
其中重点就是引入了对FP4支持。自从2022年生成式AI模型首次发布以来,随着模型能力的不断增加,对计算和内存需求有了更高的要求,如果按照原来的硬件运行方式,是难以应对这些新增的需求的。这时候从硬件层面引入对FP4数据格式支持,则可以很好的解决这个问题。原因是FP4提供了一种较低的量化方式,类似于文件压缩,能够减少模型的大小。
相对大多数模型默认使用的FP16精度相比,FP4所需的内存是FP16的不到一半,并且GeForce RTX 50系列可以提供相比上一代2倍以上的性能,FP4可以通过NVIDIA TensorRT模型优化器的量化方式,确保质量不会有太多损失。
这里NVIDIA官方给出了一个例子,Black Forest Labs的FLUX.dev模型在FP16精度下需要超过23GB的显存,但在使用FP4之后,只需要不到10GB显存就能运行,原本需要顶配GeForce RTX GPU才能运行的模型,现在主流RTX GPU也可以运行了。
在生成效率上,GeForce RTX 4090(FP16)FLUX.dev模型生成图像需要15秒,而同样的图像质量GeForce RTX 5090(FP4)只需要5秒出头。
第四代RT Core:2倍吞吐量提升
第四代RT Core做出了很多重要改进。在Turing、Ampere和Ada Lovelace架构的GPU中,RT Core包含专用的硬件单元,用于层次包围盒加速算法(Bounding Volume Hierarchies,BVH)数据结构遍历,并执行光线与三角形相交,光线与包围盒相交测试计算。它的执行效率更高,也帮助SM从光线追踪的运算中释放出来,专注于像素、顶点、着色的计算任务。
其中光线与三角形相交测试是一项计算密集型操作,RT Core承担着层次包围盒加速算法(Bounding Volume Hierarchies,BVH)数据结构遍历、执行射线/三角形和光线边界框求交计算,也是实时光线追踪在游戏和专业应用实装以来,负载最高的引擎。
Blackwell架构第四代RT Core提供了比Ada Lovelace架构再度高出2倍的光线与三角形相交测试吞吐量。包围盒碰撞由包围盒碰撞引擎(Box Intersection Engine)完成,射线/三角形求交测试。
与Ada Lovelace一样,第四代RT Core中包含专用的Opacity MicroMaps引擎,这套引擎主要是用来加速不透明度微图的处理,由于可以直接对几何体进行Alpha测试判断物体表面是否可见或者透明,进而减少GPU着色器的计算需求。
另外第四代RT Core还包括一个三角形簇相交引擎(Triangle Cluster Intersection Engine),为全新的Mega Geometry技术加速三角形簇级结构的光线追踪,同时也兼顾常规的光线与三角形相交测试。Mega Geometry技术旨在光线追踪应用中大幅提升几何细节,也是我们后续描述的重点。
另外线性扫掠球(Linear Swept Spheres)也是此次第四代RT Core增加的硬件结构,用于给头发这样的精细几何体增加光线追踪特效。
Mega Geometry:让细节直逼电影级
在虚幻引擎5这样的新一代游戏引擎中,海量的几何细节构建出了一个更为细致的虚拟世界,其中就会利用到细节层次(系统level-of-detail, LOD)以全保真度进行光线追踪几何体,而不再是进行光线追踪时,通过低分辨率的代理模型实现。这时候阴影、反射、间接照明质量都会向上提升一个层次。如果按照以往常规光线追踪方式,这些功能都是难以在实时运行的状态下实现的,Mega Geometry技术的引入就变得很有必要。换而言之,Mega Geometry的主要目标之一是让光线追踪与现代游戏引擎的细节层次系统无缝结合。
LOD在3D游戏和3D应用中已经被普遍使用。因为在复杂的游戏世界中,不可能一步到位完成所有模型的3D渲染计算,开发者会根据物体与观察者视距的距离,给物体提供不同精度和细节的模型,并根据摄像机的移动进行动态切换,简单的说就是近距离模型几何形状精度高,纹理细致;远距离物体几何多边形数目少,分辨率低,从而节省内存占用并提高性能。
但LOD并不是完美的,特别是结合RTX API扩展之后,遇到了两个问题。
第一个问题是,光线追踪效果导致的LOD效率低下。我们现在知道LOD通过判断摄像机与物体的细节来动态调整模型的精细度的,传统的方法会预先计算出少量的网格,代表给定物体不同的LOD级别。
在虚幻引擎5的Nanite系统中,为了增加场景的细节度,会使用大约128个三角形集群来动态刷新LOD级别,从而做到复杂场景下的平滑过渡。当引入光线追踪后,网格内必须构建一个独立的数据结构,即层次包围盒(Bounding Volume Hierarchies,BVH)。在每一帧中,虚幻引擎5 Nanite会对大量多边形物体进行大量的BVH构建操作,从而导致光线追踪实时运算过载。
Mega Geometry为构建BVH提供了一种新的算法,它将三角形集群作为基础元素,构建出新的聚类加速结构(Cluster-level Acceleration Structures,CLAS),新结构可以按需生成,并最多可以生成256个三角形批次,然后CLAS集合再被用作输入构建BVH。由于每个CLAS代表大约100个三角形集合,依照VLAS构建的BVH的处理量减少了两个数量级,从而允许游戏引擎在每一帧游戏画面中,可以拥有更多的预算进行更多的BVH构建。
重点是,Mega Geometry不需要过多干预,API使用的是批处理的形式,输入参数来自显存,以便游戏引擎能够高效的在GPU上执行LOD选择、剔除等逻辑操作,如果使用得当,Mega Geometry也可以进一步消除与BVH相关的CPU开销。
顶层/底层加速结构(TLAS/BLAS)和集群BLAS
第二个问题是应对更多的物体数量。4K或者更高分辨率的推动下,游戏也被要求添加更多的场景物体数量,按照以往的做法,游戏中每一帧都要给场景中所有物体构建一个TLAS(Top -Level Acceleration Structures,顶层加速结构),如果物体数量只有几千个,这种形式运作问题不大,可一旦遇到宏大的游戏世界规模,成本就会变得非常高昂。
为了解决这个问题,Mega Geometry引入一个分区顶层加速结构(Partitioned
Top-Level Acceleration Structure,PTLAS),与每帧从头开始构建新的TLAS不同,PTLAS能够利用场景中大多数物体在不同帧中保持静态的情况,将物体集中到一个分区中,仅更新发生变化的物体,让计算资源只关注发生变化的分区,运行资源节省自然变大。
NVIDIA Zorah DEMO中就使用了Mega Geometry技术
Mega Geometry中的分区顶层加速结构(PartitionedTop-Level Acceleration Structure,PTLAS)
细分曲面
Mega Geometry的主要目标之一是让光线追踪与现代游戏引擎的细节层次系统无缝结合,但应用范围也不限于如此。由于可以灵活的基于GPU完成聚类生成、快速构建BVH,更多高阶的几何技术也可以付诸实践,包括细分曲面。
细分曲面是一种集合表现方式,在电影和生产渲染工作流程中使用较为普遍。例如在1978年被提出的经典Catmull-Clark细分规则对于四边形网络迭代细化,通过位移贴图,获得平滑的渲染表面,使得粗糙的多边形网格细化成光滑的曲面。
细分曲面的光线追踪通过三角化的方式实现,对于动画或者视点变化,每一帧如果都需要重新创建新的细分曲面,会产生大量的BVH需求降低效率。Mega Geometry可以将细分曲面过程直接映射到聚类生成上,从生成的CLAS中快速构建BVH,从而获得更快的实时性能。
Mega Geometry API与架构支持
Mega Geometry作光线追踪的基础核心技术,将BVH功能提升到一个新的层次,它赋予了游戏和应用更高效的集合管线开发,因此在API和硬件也已经获得对应的支持:
API:Mega Geometry可以应用在所有NVIDIA光线追踪API中:
透过NVAPI扩展,DirectX 12 (DXR) 可支持聚类和 PTLAS
Vulkan通过第三方添加了针对聚类和PTLAS的支持
OptiX 9.0添加了对聚类的原生支持
GPU架构:Mega Geometry支持从Turing架构开始的所有RTX GPU。
Blackwell RT Core也对Mega Geometry提供了原生支持。更确切的说,第四代RT Core是专门针对Mega Geometry设计的,硬件中特殊的聚类引擎实现了新的几何体与BVH数据压缩方案,同时提供了比第三代RT Core高出2倍的光线-三角形相交速率,这让Blackwell在同样的场景中显存的占用可以更少。
线性扫掠球体(Linear Swept Spheres,LSS):让头发光追更丝滑
这项技术主要用于解决头发效果的毛糙感和效率。现在用于描绘头发、草地或者其他类似条状物的曲线渲染在搭配光线追踪时,通常需要在软件层面通过自定义相交着色器实现。然而,光线与曲面相交测试的密集计算,会延长渲染器的渲染时间,导致曲线的实时光线追踪很难在实际中使用。
为了节省计算成本,以往制作团队会寻找一种简单的方式来实现近似毛发的效果,不相交正交三角形条带(Disjoint Orthogonal Triangle Strips,DOTS)便是其中之一。它使用一组由三角形条带组成的网格,这些条带呈网格状的、不相交的模式排列,其中的三角形条带相互独立且不共享顶点。虽然这种方法的质量高于卡片方法,但不相交的排列方式会产生边缘伪影,导致渲染中出现明显的缺陷。
不相交正交三角形条带(Disjoint Orthogonal Triangle Strips,DOTS)
在Blackwell RT Core中首次引入了硬件光线相交测试的支持,从而推出了线性扫掠球体(Linear Swept Spheres,LSS)。LSS类似于条带的细分曲面,但它是通过空间中线线性断的方式扫描球体构建,每一段起始点和终点之间,球体半径可以不同,以支持不同灵活程度的发丝。对应的,LSS在Blackwell中还直接支持球体扫描,对于粒子系统而言非常有用。
英伟达表示,在头发渲染中,LSS的速度比传统DOTS快2倍,同时几何体占用的显存空间也缩减了5倍。
线性扫掠球体(Linear Swept Spheres,LSS)
着色器执行重新排序2.0(Shader Execution Reordering 2.0,SER 2.0):更高效的乱序执行
着色器执行重新排序SER是一项厉害的技术,它允许光线追踪应用可以高效地重新组织在GPU上的大规模并行线程,类似于CPU上的乱序执行,最大化的提升硬件利用率。通过SER动态重新排列工作负载,对于需要频繁执行或者内存访问分歧的光线追踪工作非常有效,比如路径追踪从着色器执行重新排序中就能获得大量收益。同时,由于可以将执行神经网络工作负载的现成直接发送给Tensor Core,因此SER还能够显著加速神经网络着色。
着色器执行重新排序(SER)
在Blackwell上,SER从硬件和软件层面都获得增强,SER核心重新排列逻辑效果提升了两倍,减少了重新排列的开销并提升了精度。更高的精度带来了更智能的连贯性提取,让开发者能够提供更多特定引用的知识来进行重排操作。
SER通过一个小型API控制,并且还引入了光线追踪着色器调用的灵活性,增强了编程模型,使得在重排的同时,也能够进一步简化渲染器的构建,特别是已经在Ada Lovelace上支持SER的工具包而言,Blackwell上的SER 2.0可以无缝使用,不需要任何代码更改。
AI计算管理器(AI Management Processor, AMP):让GPU自己管自己
AI计算管理器(AI Management Processor, AMP)是一个可完全编程的上下文调度器,位于GPU之上,旨在帮助GPU在上下文调度任务中剥离出来。AMP增强了Windows管理GPU工作负载的能力。
GPU上下文管理包含了GPU执行一个或者多个任务所需的状态信息,当多个任务进行时,可以使用多个上下文管理来实现更好的任务隔离,并且确保多个应用程序能够同时共享GPU而不会发生冲突。比如游戏中的AI NPC的调动行为,会通过NVIDIA Avatar Cloud Engine(ACE)实现语音、翻译、视觉、动画、行为等模型的同步运行,模型的运行与游戏是同步的,但相互之间不会被干扰。
AMP通过一个位于GPU管线前端的RISC-V处理器实现,它能提供比以往以来CPU更快的方式实现上下文调度,并且延迟更低。Blackwell AMP调度架构与微软的架构模型匹配,通过Windows硬件加速GPU调度在GPU上配置的方式,让Windows可以更高效的管理GPU的显存,减少延迟,并提升游戏和其他图形计算引用的性能。
AMP在其中扮演的角色是接管CPU调度GPU的工作,从而减少对系统CPU的以来。事实上,GPU管理自己可以减少GPU与CPU之间的通讯次数,对降低系统延迟也提供很好的帮助。
AI计算管理器(AI Management Processor, AMP)调度AI与图形的工作负载流程
本质上,AMP的作用是协调和调度,以确保更流畅的游戏体验,避免性能下降。在大语言模型LLMs应用中,AMP通过减少首次使用的响应时间就能很好的证明这一点。在游戏领域,AMP也可以通过优先调度游戏引擎工作,防止游戏卡顿。
RTX Blackwell的视频和显示功能
GeForce RTX 5090 D首发评测的时候,Bilibili UP主影视飓风对显卡的编码器和解码器进行了测试,发现其表现已经超过了苹果视频剪辑领域最强的M2 Ultra,Blackwell自然功不可没。
Ada Lovelace和之前的GPU架构已经支持到了H.264和H.265的4:4:4和4:2:0色度格式,现在Blackwell GPU在其中间增加了新的硬件编码器和解码器,并对4:2:2提供了支持,即在效率和画质中拥有了更多的细分选择。
一般而言视频文件使用YUV色彩格式,与RGB值存储颜色不同,YUV格式将颜色存储为亮度Y,颜色差异色度U和红色差异色度V,色彩采样利用了人眼对亮度变化比色度变化更敏感的特性。
在YUV 4:4:4视频中,每个通道都会保留完整值,这也导致文件体积巨大,且传输视频数据时需要更高的带宽。色度采样通过在视频色度通道中存储更少的信息来减少存储和带宽的需求,比如YUV 4:2:0视频就能保证完整的亮度通道,但是两个色度通道仅包含原始信息的25%,每个视频帧数据量都是未经压缩的4:4:4视频帧的一半,体积更小,但颜色信息丢失。
不过颜色上的丢失不代表不能看,因为从Blu-Ray到HDR10,再到如今的流媒体平台,标准内容的分发格式都是YUV 4:2:0。
在拍摄、编辑、色彩校正的过程中,YUV 4:2:2以目前的硬件水平来看,是获取更多颜色信息、减少文件大小,满足带宽需求的合理选择。在YUV 4:2:2视频中,完整的亮度值被保留,同时保留了一半的原始色度信息,YUV 4:2:2压缩视频帧仅占YUV 4:4:4的三分之二,同时提供了YUV 4:2:0两倍的颜色分辨率。
因此YUV 4:2:2相当于YUV 4:4:4与YUV 4:2:0之间的新选择,并且已经成为高端用户和专业视频摄像机提供的选择,当然这也意味着原本以来CPU处理的方式会导致效率低下,用户体验不足。
YUV 4:2:2相对4:2:0保留了额外的颜色信息,对于HDR内容而言非常有用,同时也可以保留更多视频细节,比如文本、细线条,或者需要反复进行色彩校正的工作流。在Blackwell中为4:2:2提供硬件性能的是第九代NVENC和第六代NVDEC。
第九代NVNEC
Blackwell中第九代NVENC编码器通过提高5%的BD-BR PSNR(Bjøntegaard Delta Bitrate Peak Signal-to-Noise Ratio,用于评估视频编码质量的指标),改善了AV1和HEVC的质量,新增了对4:2:2 H.264和HEVC编码支持,新增AV1超高质量UHQ模式,不过AV1 UHQ模式需要额外的时间已获得最佳质量。同时AV1 UHQ也可以在RTX 40系列GPU上通过AV1编码器和软件层面运行,只不过质量低于Blackwell。
这里NVIDIA展示了AV1编码器代际升级,最多可以实现15%的BD-BR PSNR提升,如果是Netflix VMAF指标时,提升效果更为显著。
在GeForce RTX 5090和GeForce RTX 5090 D上,拥有3个第九代NVNEC,2个第六代NVDEC,橡胶上一代提升50%的输出速度,相对于只有耽搁编码器的GeForce RTX 3090,速度提升达到4倍。
第六代NVDEC
第六代NVDEC负责Blackwell的硬件解码,实现2倍以上的H.264解码速度,并且还支持4:2:2 H.264和HEVC解码。
DisplayPort 2.1b
Blackwell GPU引入对DisplayPort 2.1b的支持,提供最高80Gbps的带宽,采用UHBR 20传输模式,即每个通道提供20Gbits/sec高速比特率。这使得DisplayPort 2.1b UHBR 20能够支持更高规格的显示器,包括8K 165Hz,4K 480Hz,两者都需要DSC(Display Stream Compression,显示流压缩技术)支持,且最高链路速率需要使用DP80LL认证的线缆。
Blackwell Max-Q电源效率改进
Max-Q旨在先沟通的平台功率中获得更多性能,并在GPU空闲时更快的进入睡眠状态,尽可能节省电量。
在Blackwell Max-Q中主要做了三项改进,分别是:高阶电源门控(Advanced Power Gating),加速频率切换(Accelerated Frequency Switching),低延迟睡眠(Low Latency Sleep)。
高阶电源门控(Advanced Power Gating)
从活跃电源状态切换到深度电源状态的问题在于,电源状态越深,那么进入和退出这个状态所需的时间越长。Blackwell减少了进入和退出不同电源状态的延迟,NVIDIA将其称为迄今为止他们所构建的最先进的芯片单元电源门控技术,使用多个新的门控层级,允许电源进行非常细微的调控。
新的时钟门控功能可以让整个时钟树关闭非常迅速,即使芯片只有部分区域空闲,或者空闲非常短暂,或者相对活跃的工作区域,搜能节省动态能耗。同时对于Blackwell来说,内存功率控制也是重点,通过GDDR7快速唤醒时钟架构来实现最佳效率,也使得整个内存时序首次实现门控。
其中,独立电压轨道可以分别为GPU核心与内存系统供电。独立电压轨道允许对芯片大区域进行独立电压控制,不同区域可以根据不同的工作负载进行优化。独立的电压轨道还允许Blackwell在短时间空闲时关闭未被使用芯片的部分,减少泄露功耗。
Blackwell设计下,电压轨门控状态可以在每帧粒度下进入,这对于使用电池续航进行游戏、内容创作时候尤为重要。独立的电源轨道可以在GPU空闲时降低功耗,通过不需要时关闭GPU核心,以提升整个系统的电源管理效率,从而提升笔记本续航。
加速频率切换(Accelerated Frequency Switching)
加速频率切换是近十年来最大规模的时钟架构升级,这个升级可以让时钟比以前GPU架构快1000倍的调整工作负载,使得Blackwell能够快速响应GPU工作负载的动态特性。根据工作负载的调整时钟速度,以获得最佳性能和功耗效率,而不是像此前时钟频率在整个帧生成的过程中保持不变。
当GPU在处理完某一任务后,进入短暂的空闲状态时,这项技术能够快速检测到这些“空闲间隙”,并减少功耗。这些空闲时间通常是GPU接收到CPU发送的新任务之前的间隔。在GPU不空闲时,它可以迅速增加时钟频率,提供更高的性能。这种提升性能的方式是在功率限定的情况下进行,也就是说,它不需要额外的能量消耗,只是在空闲时降低了功耗,从而在处理任务时能够以更高的速度运行。
低延迟睡眠(Low Latency Sleep)
由于可以更快的进入节能状态,以及具备新的电源门控技术,Blackwell比Ada Lovelace进入休眠的时间快上10倍,从而在最低功耗的休眠状态下获得更好的节能效果。
Ada Lovelace和Blackwell上运行SLM推理时,两者之间相差的功耗对比
这里NVIDIA使用了一个小语言模型SLM推理作为比较,Blackwell通过电源和电压门控实现了更低的功耗过度,并能够比以前快10倍的进入深度睡眠状态,在测试时可以实现50%的能耗节省。
DLSS 4:游戏体验进阶时
DLSS 4是Blackwell提升游戏体验的重要技术,DLSS 4可以一步到位通过人工智能提升帧率,降低延迟,改善游戏画质。特别是引入了全新的多帧生成技术(Multi Frame Generation,MFG),提供更快的性能和更低的内存使用,并且由CNN卷积神经网络模型更换到了Transformer模型,超分辨率(Super Resolution,SR),光线重建(Ray Reconstruction,RR),深度学习抗锯齿(Deep Learning Anti-Aliasing,DLAA)均获得了新的进展,图像质量和稳定性有所提升。
由于硬件的独占性,DLSS 4的完全功能需要在GeForce RTX 50系列GPU和第五代Tensor Core上才能实现。背后也是通过NVIDIA云端AI不断提供优化的结果。
DLSS 4多帧生成(DLSS 4 Multi Frame Generation,DLSS 4 MFG)
帧生成技术首次采用是在2022年的Ada Lovelace架构中,当时是通过光流场、游戏运动矢量,AI网络共同合作,在每个传统渲染帧之间,单独生成一个帧。在Blackwell架构中,第五代Tensor Core在每个传统渲染帧之间生成的帧数,从1个提升到了最多3个。这是Blackwell硬件和DLSS软件共同合作的结果。
同时,新帧生成AI模型比之前帧生成方法快40%,使用的显存减少了30%,并且每个渲染帧只需要运行一次即可生成多个帧。原本的硬件光流加速器也被高效的AI模型代替,使得光流场的生成速度得到提升,AI模型也显著降低了生成额外帧的计算成本。
另外一个就是帧生成后的节奏控制。DLSS 3帧生成使用的是CPU作为节奏控制,由于DLSS 4上帧数增加而导致的变动明显,从而导致整体流畅性受影响。为了解决多帧生成带来的不确定性,Blackwell使用了增强版的帧翻转计量(Flip Metering)作为解决方案,它将帧节奏逻辑转移到显示引擎上,让GPU可以更精确的管理显示时序。
另外,Blackwell显示引擎也具备了2倍的像素处理能力,支持更高的分辨率和刷新率,从而实现DLSS 4的硬件帧翻转计量(Flip Metering)。
这也意味着DLSS 4本身具备一定的硬件限制,如果想完全发挥DLSS 4的所有性能,需要软件和硬件的配合,包括后面要提到的Transformer AI模型,前面提到的AMP AI计算管理器。
Transformer模型:AI新引擎
这是自从2020年发布DLSS 2以来,DLSS首次更换神经网络架构。在GeForce RTX 50系列GPU之前,AI之所以能够对图像画质、帧率带来提升,得益于CNN卷积神经网络模型(Convolutional Neural Network,CNN)实现的局部聚合像素,树形结构分析的方式。这套运行方式可以从底层向高层逐步处理,在运算结构上非常高效,因此被称为卷积神经网络。
DLSS 4开始,卷积神经网络被替换成Transformer模型,目的是进一步盖上图像质量、渲染流畅性,以及更好的应用DLSS超分辨率、DLSS光线重建和深度学习抗锯齿DLAA。Transformer架构在神经网络处理序列、结构化数据的任务中表现更为出色,它由数据本身驱动,因此也更容易将注意力放在最有用的部分,做出有效决策。
与CNN卷积神经网络相比,Transformer模型使用了名为自注意力机制(self-attention),能够更容易的识别大像素窗口的长程模式。举个例子,CNN卷积神经网络模型处理的是局部像素关系,比如它在图像中会滑动一个3x3像素的小窗口提取特征,但可能会导致无法识别远距离像素之间的关系。
Transformer的远距离的长程模式可以判断出远处物体之间的关系,而不是限定在3x3像素的小窗口内,这使得Transformer可以更好的了解图像表达的含义,不同物体之间的联系。
同时Transformer还具有更好的扩展性,可以让DLSS 4处理2倍的参数模型,利用更多的Tensor Core计算能力,重建更高质量的图像。这套解决方案适用于所有GeForce RTX用户,而不是仅限定在GeForce RTX 50系列用户中。
DLSS超分辨率(DLSS Super Resolution,DLSS-SR)
DLSS超分辨率通过AI降低分辨率输入,并输出高分辨率来获得性能提升。DLSS通过采样多张分辨率图像,并利用运动数据和前一帧来构建高质量图像。与之前DLSS-SR相比,Transformer模型在时间稳定性上表现更好,因此新的DLSS-SR减少了鬼影,且运动中的图像细节更丰富,抗锯齿效果也得到了改善。
DLSS光线重建(DLSS Ray Reconstruction,DLSS-RR)
DLSS-RR利用AI为复杂光线追踪场景额外生成像素来提升图像质量。DLSS-RR通过NVIDIA超算训练的AI网络代替手工调教的降噪器,通过网络采样光线之间生成更高质量的像素。特别是在复杂光线追踪场景中,DLSS-RR依靠Transformer模型在质量上获得了很大的提升,伪影得到了显著改善。
深度学习抗锯齿(Deep Learning Anti-Aliasing,DLAA)
DLAA利用AI抗锯齿技术提升图像质量。DLAA使用的与DLSS相同的超分辨率技术,在原生分辨率下构建更真实、高质量图像。让图像拥有更好的时间稳定性、运动细节和平滑边缘。
神经网络着色器 (Neural Shaders)
神经网络着色器 (Neural Shaders)的加入是NVIDIA认为对未来数年产生重要影响的改进。着色器是GPU运行程序、控制图形渲染的方式,其复杂程度取决于所需的视觉效果和处理要求。最基本的形式中,着色器计算渲染游戏场景时,使用的光线、阴影、颜色过程,统称为着色过程,属于渲染管线的一部分。
最早的时候,图形在GPU上通过不可编程着色器进行处理,也称为固定功能管线。其中图形管线中的操作是预定义和可配置,但不可以编程。这是因为当时的着色器受到硬件设计限制,因此,当时的设计团队专门针对固定的模式之行一组预定义的操作。
不可编程的做法可以提升硬件使用效率,对固定类型游戏有着显著的优化提升,但带来风险是非常巨大的。例如GeForce 256在《DOOM》上表现出色,成为一代神卡,但如果遇到后续游戏采用了截然不同的处理方式,不可编程着色器运行效率就会变得相当低下。
因此从GeForce 3开始,NVIDIA引入了第一个可编程着色功能,即顶点着色器。随后,高阶着色语言HLSL(High-Level Shading Language)让像素着色成为了可能,从而可以在定制屏幕上显示所有内容。
再然后,DirectX 10引入了集合着色器,DirectX 11引入了计算着色器,DirectX 12则增加了包围体层次结构BVH让DirectX实现光线追踪,使得任何光线都能与场景几何体橡胶,并生成一系列不同的着色操作。
Blackwell发布后让神经网络着色器成为可编程着色的下一步升级。现在,开发者不再需要编写复杂着色器代码来描述对应的功能,取而代之的是AI模型来提供近似着色器代码所提供的结果。
目前为止,NVIDIA已经将神经网络着色技术引用于DLSS。最新的DirectX 12、Vulkan Cooperative Vectors API也可以通过任何类型的着色器访问Tensor Core,从而获得神经网络技术的支持。NVIDIA和微软也共同合作创建了新的Cooperative Vectors API,从而解锁了游戏开发者在游戏中使用神经网络技术的能力,包括神经纹理压缩,提供了比压缩格式高7倍的显存压缩。
图形计算中的神经网络加速
神经网络着色器允许开发者以学习高效近似算法的方式训练神经网络,这些算法包含计算光线与表面之间的相互作用,有效的解压存储视频内存中的超压缩纹理,基于有限的真实数据预测间接光照,并近似模拟表面光散射,进而让游戏场景中的画面更为接近真实。
神经网络着色器的潜在应用尚未被完全探索,未来肯定还能有更多高效、快捷的实时渲染功能被逐步开发。这里,NVIDIA在发布Blackwell的同时,也基于神经网络渲染器提供了几个样板功能作为参考。包括RTX神经网络材料(RTX Neural Materials), 神经网络辐射缓存(Neural Radiance Cache), RTX皮肤(RTX Skin), 以及RTX神经网络面孔(RTX Neural Faces)。
RTX神经网络材料(RTX Neural Materials)
在大预算的CGI电影中,为了追求画面的真实感,一些材质非常复杂,由多个光学层组成,这项技术放在实时光线追踪中是非常奢望的。但现在,AI技术通过神经网络近似替代材质将其变成了可能,让游戏可以同时具备电影级质量的资产,以及高帧率。
RTX神经网络纹理压缩(RTX Neural Texture Compression,NTC)
渲染技术的不断升级也导致纹理数据量增加,是的存储和内存需求不断增加。由于带宽限制,性能会进一步收到影响,更好的压缩方式势在必行。RTX神经网络纹理压缩利用神经网络着色器访问神经网络,可以比传统方法更高效的压缩和解压材质纹理。
例如NVIDIA演示的灯笼、织物在传统材质下占用了1110MB内存空间,但通过神经网络材质压缩,同样的画面只需要333MB的内存,进而节省了三倍空间,还提升了视觉效果。
随机纹理过滤(Stochastic Texture Filtering,STF)在纹理采用过程中引入随机性,以减少摩尔纹等伪影,有一次在无法应用三线性或各向异性过滤时,使用神经网络纹理压缩的情况下更为有效。当硬件纹理过滤可用时,STF同样可以起到作用,并且可以提供更高阶的过滤效果,比如立方体过滤、高斯过滤。由于2倍的点采样纹理过滤改进,STF在Blackwell GPU上运行速度更快。
神经网络辐射缓存(Neural Radiance Cache,NRC)
神经网络辐射缓存(Neural Radiance Cache,NRC)利用神经网络着色器来缓存和近似辐射信息。通过利用神经网络学习,复杂的光照信息可以被存,并用于实时渲染,创建高质量的全管局光照和动态光照效果,通过减少GPU的计算负载,提升效率,进而提升视觉质量和可扩展性。
因此NRC是神经网络着色器的一种类型,它接受经过一次反射的路径追踪光想,并推断出多个反射后的最终光照值。NRC在实时游戏数据上训练小型神经网络,以估计间接光照信号。初始的一组光照被反射,但不会被完全追踪。相反,路径追踪器在一次反射后,会将光线路径发送到缓存,并模拟光线完全追踪并经过多次反射的效果,从而确保光照场景得以呈现。
NRC通过减少GPU对光线的追踪次数,避免了超出初始少量反射的追踪,并提升了性能。同时间接光照质量也得到了改善,因为NRC可以在有限的光线预算内推断出多个反射。即使在复杂场景中,NRC也可以保证图像质量,并具有高度的适应性。由于NRC本身是在游戏过程中进行训练,所以NRC可以感知游戏中各种场景的变化,自动调节以提供准确的间接光照效果。
RTX皮肤(RTX Skin)
皮肤在渲染中也是一个难题。本质上,皮肤是组成物体外部的一组网格,如果材料想木材或者金属那般不透光,那么展现方式效果可以很好表达,只需要根据场景中的光源计算光照即可。然而半透明材质却有些是困难,光照实际上会穿透材料,进入物体内部,并在物体内部传播或散射,然后从物体其他部分反射出来。
为了改善皮肤效果,NVIDIA借用了名为次表面散射(subsurface scattering)的电影渲染技术,将其引入实时路径追踪。下面是RTX Skin在游戏中第一个使用光线追踪次表面散射展现出来的例子,这让笔者很期待后续RTX Skin被更多艺术家创造后的效果。
RTX神经网络面孔(RTX Neural Faces)
实时渲染的另一个难题是如何逼真的展现人脸渲染。原因是渲染人类面孔其实是实时图形中一个非常具有挑战的任务,因为人类对人类太熟悉了,导致人类可以轻易差距到虚拟人类脸上的细微偏差,如果处理得不好,就会导致陷入恐怖谷效应。在电影渲染中,往往需要比游戏实时渲染多几个数量级的计算才能获得以假乱真的面部图像。
RTX Neural Faces提供了一种创新的方法,通过生成式AI来改善面部质量。与直接渲染不同,RTX Neural Face只需要简单的光栅化面孔和3D姿态数据作为基础,就可以实时通过生成式AI模型推断出自然的面孔展现。而在此之前,模型已经经过数千张离线数据的学习和训练,涵盖不同角度、光照、情感和遮挡条件。训练管道可以使用真实照片或者AI生成图像,通过扩散模型训练而成。训练好的模型会经过TensorRT优化,以实时推断面部变化。
RTX神经网络面孔(RTX Neural Faces)是通过生成式AI重新定义实时图形的第一步尝试。
写在最后:神经网络进阶时
在摩尔定律进入瓶颈的当下,单纯依靠硬件堆叠和原始渲染方式已经无法很好的解决功耗与性能之间的问题,可以看到GeForce RTX 50系列在一定程度的硬件提升同时,从底层架构开始向神经网络、人工智能看齐,进而使得在有限的硬件条件下获得成倍、甚至数倍的性能提升,也进而诞生了DLSS 4、神经网络着色器,引入了Transformer模型,Mega Geometry技术,让实时游戏渲染逐渐向电影级画质靠拢。
其中部分功能需要后续的软件与硬件结合才能迸发出更好的效果,而诸如Transformer模型实装已经开始让GeForce RTX 50系列以及更早的GeForce RTX GPU受益。令人高兴的是,硬件编解码器不再是专业显卡的专属,GeForce RTX 5090和GeForce RTX 5090 D上3个第九代NVENC和2个第六代NVDEC让消费用户制作高规格视频成为了可能。这也意味着无论是专业创作还是高性能游戏,GeForce RTX 5090都无疑会成为未来一段时间内不可替代的唯一选择。
而随着神经网络着色器的进一步研究,更多游戏功能也会在游戏画面、AI NPC应用付诸实践,Blackwell GPU更像是通往新一代AI游戏领域的新开始,比如4K分辨率下高于200FPS流畅运行,比如更细致的游戏画面和电影级画面宏大叙事,再比如酷炫的AI功能,基于Blackwell架构的新技术无疑是让人万分期待的。
本文来自:什么值得买