前言
北京时间1月7日,英伟达在CES 2025发布了备受期待的GeForce RTX 50系列显卡,首发产品包括RTX 5090(D)、RTX 5080、RTX 5070Ti和RTX 5070四个型号。GeForce RTX 50系列显卡搭载了全新的Blackwell架构,可以说是近年来变革最大的GPU架构,为我们带来了全新的SM单元流处理器、第四代RT Core、第五代Tensor Core、GDDR7显存等新特性,另外还有RTX神经网络着色器、DLSS 4、Reflex 2、Transformer模型、多帧生成等新技术的诞生,可谓是重新定义了未来游戏发展的新方向,将AI技术纳入图形渲染的核心地位。
NVIDIA Blackwell架构
SM单元
我们先来简单了解一下Blackwell架构的变化。首先是SM单元,上代Ada架构SM单元里的着色器核心有两种,一种能执行FP32运算,另一种能执行FP32或INT32运算,运算能力更倾向于浮点运算。而Blackwell则升级成了统一着色器核心,可按需执行FP32或INT32运算,大幅度提高了着色器核心的整数运算能力,运算效率和调度也更为灵活。英伟达表示这种运算单元的改动是为了神经网络着色器而优化。
第五代Tensor核心
第五代Tensor核心增加了对FP4精度的支持,相较于上代Ada核心的FP8精度,FP4精度的运算吞吐量可提升2倍。模型精度越低对运算性能和空间的开销也就越低,低精度的量化可以减少模型的体积,降低对显存的要求,提高运算速度。而在端侧的推理运算大部分都采用低精度模型,偶有高精度模型也会通过量化操作来降低精度,所以更低精度的支持意味着显卡有更高的灵活度减少硬件的开销。
第四代RT核心
第四代RT核心继承了上代的 Box Intersection Engine和Opacity Micromap Engine,原有的Triangle Intersection Engine升级为Triangle Cluster Intersection Engine,并新增Triangle Cluster Decompression Engine用以处理更大规模的三角形相交场景。另外还新增了 Linear Swept Spheres用以处理毛发的光线碰撞,减少硬件开销。
英伟达将其称为Mega Geometry,并表示其处理几何图形相交的能力要比Ada架构提升2倍,显存开销降低25%。
GDDR7显存
RTX 50系列显卡还搭载了GDDR7显存,因为采用了PAM3信号编码,数据速率可达GDDR6的2倍,但功耗只需要GDDR6的一半。
编解码功能
还有一个需要补充的是,Blackwell架构终于支持DisplayPort 2.1 UHBR 20模式,可以输出最高8K 165Hz的画面,并且NVDEC解码引擎升级到第九代,NVENC编码引擎升级到第六代,AV1格式支持了UHQ超高质量模式,HEVC(H.265)格式支持到MV-HEVC,色度空间支持更高规格4:2:2格式。
RTX神经网络着色器
RTX神经网络着色器是一项颇具科幻色彩的技术,咋听之下似乎无法理解,但我们可以简单理解为它是一项借助AI训练来简化、压缩渲染流程和材质数据的技术。这其中又细分为神经网络纹理(Neural Textures)、神经网络材质(Neural Materials)、神经网络体积云(Neural Volumes)、神经网络辐射场(Neural Radiance Fields)、神经网络辐射缓存(Neural Radiance Cache)等5项技术。通过这项技术,开发者可以更高效、智能的完成开发过程,导出更匹配RTX的着色器数据。用户也可以以更低的硬件开销,获得更高质量的渲染画面,可谓是双赢的局面。
DLSS4
DLSS 4迎来了自2019年DLSS发布以来的最大革新:多帧生成技术(MFG)和Transformer模型。DLSS 3的帧生成技术是通过超采样和光线重构技术生成额外帧,并通过光流加速器插入原始帧中获得几乎翻倍的帧数提升。而DLSS 4技术得益于第五代Tensor核心的算力提升,可以在DLSS 3的基础上再额外通过AI模型生成2帧画面。如此以来,配合超采样、光线重构、光流插针以及多帧生成模型,DLSS4可以实现15/16的画面生成,实现最高8倍的帧数提升。除了多帧生成技术,DLSS4还将原有的CNN卷积神经网络模型替换为Transformer模型(可选),能够更好的处理自然语言和多头注意力权重,生成的画面会更稳定,鬼影和运动模糊等问题也会大幅度减少。
显卡规格
从规格上看,RTX 5080的规格大约比上代RTX 4080S提高了5%左右,SM单元增加4组,CUDA核心增加512个,Tensor Core张量核心增加16个,RT Core光追核心增加4个。当然,更重要的是Tensor Core张量核心和RT Core光追核心分别从第四代和第三代迭代到第五代和第四代。另外显存也更换为了速度更快的GDDR7显存,供电接口则是更安全的12V-2X6接口,TGP功耗提高了40W,达到360W。建议零售价8299元,仅比上代贵了200元,可谓是加量不加价。
基本规格
核心加速频率:2730MHz
显示核心:GB203
CUDA核心:10752个
显存位宽:256-bit
显存容量:16GB GDDR7
显存带宽:960GB/s
显卡接口:PCIe 5.0 x 16
视频输出接口:DisplayPort 2.1 x 3 / HDMI 2.1 x 1
整体功耗(TGP):360W
推荐电源功耗:850W
外接供电:12V-2X6
厚度:2槽
显卡尺寸:304mm x 126mm x 50mm
我们评测的是技嘉RTX 5080 AERO OC SFF 16G雪鹰显卡,这是技嘉白色主题的主流级显卡,搭载技嘉风之力散热系统,采用仿生风扇、服务器级导热凝胶、大面积均热板等多项技术,提供强劲的散热性能,并支持NVIDIA SFF-READY规范,可安装在SFF-Ready规格的小机箱里。
细节介绍
RTX 5080雪鹰显卡的外观以银白配色为主,圆润的线条为辅,没有过多的纹理装饰,整体看上去比较简约、素雅。
背部采用全尺寸金属背板,尾部设计有大面积进气格栅。
显卡供电接口由上代的12VHPWR接口更换为更安全的12V-2×6接口,虽然外观看上去一模一样,但里面的针脚长度有所调整。供电接口旁边是双BIOS开关,支持性能和静音两档。
显卡顶部的线条依然保持了圆角设计,圆润感十足。左侧的AERO字样支持RGB灯光效果,可通过技嘉的GCC管家设置灯光模式和颜色。
视频输出接口由3个DP 2.1和1个HDMI 2.1组成,最高可支持8K 165Hz的视频输出。
风之力散热系统配备三个10cm仿生风扇,叶片设计灵感来源于鹰的翅膀空气动力学,有效降低风阻和噪音,可将风压提升高达53.6%,风量提升12.5%。同时,它也支持3D启停技术,当GPU温度较低或处于较低负载时,风扇将会自动停止运转,提供更安静的使用体验。
附件方面送了一根12V-2×6接口的转接线,注意这根转接线需要3 x 8Pin显卡供电线。另外还有一组定制显卡支架,提供更好的显卡支撑性。
值得一提的是,这张显卡还有一张黑色版本的RTX 5080 WINDFORCE OC SFF 风魔16G,作为5080的入门款,配有NVIDIA SFF-READY,将强大的性能融入到小巧的外形中, 搭配新一代仿生风扇,可将风压提升高达53.6%,风量提升12.5%, 服务器级导热凝胶,大型均热板和复合式热管、进气格栅等散热技术进一步提升产品散热性能,售价8299元。
测试平台
为保证测试成绩没有瓶颈,选择了目前最强游戏处理器锐龙7 9800X3D搭配技嘉X870魔鹰主板,内存用的金士顿FURT DDR5 6000 CL30,固态硬盘则选择致钛的TiPlus 7100 2TB。
目前2.61版本的GPU-Z还无法正确识别显卡规格,但核心加速频率已正确识别为2730MHz,比公版频率高出113MHz。
基准测试和游戏测试
我们先来看3Dmark的跑分成绩,得益于Blackwell的先进架构设计,RTX 5080以5%的流处理器提升跑出了比RTX 4080S高20%左右的成绩,其中光追测试的Port Royal、Speed Way更是能保持23%和22%的领先幅度。
我们选择了8款游戏用来测试传统的光栅化性能,分辨率分别是2560 x 1440和3840 x 2160,如果支持光追的游戏手动关闭,并开启最高画质设定。从测试成绩可以看到,RTX 5080保持了在基准测试中的性能优势,成绩在8款游戏中均领先于RTX 4080S,平均领先幅度在16%左右。其中,领先幅度最高的是《赛博朋克2077》,在2K分辨率和4K分辨率分别比RTX 4080S快23%和25%,其他游戏则各有高低。总体来说RTX 5080在4K分辨率下的性能优势更强,并且足已驾驭绝大多数游戏在4K分辨率下的画质全开需求。
光追游戏的测试结果类似,RTX 5080的帧数比RTX 4080S快了大约17%,且同样在4K分辨率下有着更强的性能优势。另一方面,RTX 5080基本能满足2K分辨率的光追全开画质,但在4K分辨率下还是建议开DLSS技术。
说到DLSS技术,就不得不提和RTX 50系列显卡同时间上线的DLSS 4技术,它引入了多帧生成技术(MFG)和Transformer模型的更新,最高可将帧数提升至原始帧数的8倍以上。
《赛博朋克2077》便是首批宣布支持DLSS4技术的游戏之一,我们也提前体验了支持DLSS4技术的Beta版更新。不过因为测试版没有中文,所以只能用英语版本给大家展示,相信到RTX 50正式开售时,正式版本也应该发布了。可以看到《赛博朋克2077》的DLSS设置增加了Transformer模型选项,下方还有DLSS 多帧生成技术(MFG)选项,一共有三档,分别是2X、3X和4X,档位越高帧数提升也就越高,但相应画质也会有所压缩。
前面我们测试了RTX 5080在《赛博朋克2077》里,4K分辨率、画质全开、光追全开,帧数只有36帧。如果打开DLSS 3的质量模式,帧数能翻倍到64帧左右。如果借助DLSS 4技术的加持,即使只开到2X,帧数也能达到109帧的流畅水平。如果开到3X,那帧数就来到了154帧的高刷流畅水平,开到4X帧数就更恐怖了,直接达到194帧,几乎是电竞游戏的高刷水平,相较原生帧数提升了5.3倍。
当然,我知道你肯定对画质有所顾虑,我们也对比了DLSS4开到3X和4X的画质表现。坦白的说,DLSS 4和原生画质对比不可能没有任何损失,但我个人觉得这个画质损失在接受的范围内,基本是阴影部分的细节有略微损失,整体画质与DLSS 3的质量模式相当。而DLSS 3的质量模式只能实现翻倍的帧数提升,现在DLSS 4却能实现5倍以上的帧数,以这点画质损失来换取数倍的帧数提升,我认为还是非常划算的。
除了游戏内设定DLSS 4,还可以通过NVIDIA App来实现DLSS 4的开关以及画质的优化。例如《漫威争锋》也是首批支持DLSS 4技术的游戏之一,但游戏内无法实时设置DLSS 4。这时候就需要NVIDIA App来进行手动设置或自动优化。设置方法跟游戏内置的DLSS 4差不多,都是开启帧生成然后设置一下倍率,应用了之后再打开游戏。
漫威争锋对于RTX 5080的压力不算大,4K分辨率画质全开也有93帧左右,开启DLSS 4帧生成 3X,帧数达到了296帧左右,几乎是原生帧数3.2倍。如果开启DLSS 4帧生成 4X,帧数就来到了373帧,搭配一台高端OLED显示器,你就能体验一下极致高刷的乐趣。
AI与生产力性能
虽然RTX 5080是一张游戏显卡,但我们还是测了它的AI性能。首先测试的是Geekbench AI,在AI相关的三个量化标准:单精度浮点、半精度浮点、量化性能上,RTX 5080都要强于RTX 4080S。尤其是RTX 5080新增了FP4的低精度支持,在半精度浮点性能上足足比RTX 4080S高出19%。
另外我们还用UL Procyon的Stable Diffusion测试组建测试了文生图的速度。RTX 5080生成一张512x512的图大约需要1.785秒,而RTX 4080S生成一张512x512的图则需要2.083秒,足足快了14%。4组每组4张,共16张图,RTX 5080耗时28.553秒,RTX 4080S耗时33.334秒,同样节约了14%的时间。如果你是Stable Diffusion的内容创作者,一天可能出个几千上万张图,那这14%的差距就能为你节约大量的时间。
生产力我们主要测试了一下渲染软件的表现。Blender是最常用的3D渲染引擎之一,可以渲染动画、图像、结构图等等,测试使用Blender的Benchmark,对三种场景进行渲染。可以看到在monster和classroom项目里,RTX 5080比RTX 4080S快5%左右,而在junkshop项目里更是领先13%。
V-Ray是一个3D渲染引擎,支持路径跟踪、光子映射等等,可以使用CUDA加速或者RT Core进行渲染。在V-Ray的Benchmark测试里,RTX 5080的成绩比RTX 4080S高出大约22%。
目前已有超过120款常用软件如Adobe全家桶、MAYA、达芬奇、Blender支持英伟达的CUDA加速和AI功能。
散热与压力测试
使用Furmark进行压力测试,分辨率1920 x 1080,烧机40分钟后,技嘉RTX 5080 AERO OC雪鹰显卡的核心温度大约64度,功耗360W,显存温度和热点温度未能识别出正确数值,故不做统计。这时候显卡风扇转速只有1800RPM左右,比旁边的CPU风扇还低,基本听不到什么明显的风噪。
总结
总的来说,Blackwell架构和RTX 50系列显卡是极具革新意义的一代显卡,显卡光栅化的性能已经来到了边际效应的临界点,单纯靠提升流处理器规模已经很难获得大幅度的性能提升,所以英伟达另辟蹊径以AI技术作为切入点实现了画质和帧数的平衡点。从第一代的DLSS超分到DLSS帧生成再到DLSS多帧生成,不可否认的是DLSS技术让预算不高的玩家也能流畅玩游戏,让想开光追的玩家体验到了流畅的光追,让4K+光追+高刷有了落地的可能,而这也是英伟达将来要继续走的路线。
技嘉RTX 5080 AERO OC雪鹰显卡有着全白色外观且支持NVIDIA SFF-READY规范,可以放心的装在全白主题的小机箱里,它的性能足已满足你4K分辨率画质全开的游戏需求,如果叠加DLSS4带来的数倍帧数提升,你甚至可以体验一下4K+画质全开+光追全开+高刷的游戏爽感,不夸张的说用个几代都不用换显卡了。
本文来自:什么值得买