DLSS 4让帧数突破显示极限! 技嘉RTX 5080超级雕显卡评测

  发布时间:2025-02-17 08:26:44   作者:佚名   我要评论
今天继续为大家带来AORUS Geforce RTX 5080 MASTER 16G的显卡评测,此前没有关注RTX 5080首测的朋友,可以再详细的了解一下

Blackwell 第5代Tensor Core

本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。

与NVIDIA Ada Tensor Cores一样,Blackwell架构的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

Blackwell还增加了对FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

FP4精度支持

FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。

例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的期间产品RTX 4090,RTX 5090和专业GPU来支持。

而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。

在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。

DLSS 4

DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。

这些新技术由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超级计算机提供支持。不过对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。

Multi Frame Generation(多帧生成)

DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。

从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。

为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。

而第5代Tensor Cores拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。

Transformer模型

此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。

而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。

与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。

本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。

Shader Execution Reordering (SER) 2.0

Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。

因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。

测试平台简介

首先介绍一下测试平台,为了保障AORUS Geforce RTX 5080 MASTER 16G的性能发挥,我们的平台也再次进行了全面更新。

除了AORUS Geforce RTX 5080 MASTER 16G这张显卡,处理器选择了AMD R7 9800X3D游戏神U。

为了方便观察DLSS 4在画质上的提升和4K高帧率带来的游戏变化。我们选择了技嘉FO32U2P OLED显示器,这款显示器采用了4K@240Hz的高分高刷规格,可完美适配DLSS 4的多帧生成。而99%的DCI-P3色域覆盖,更可细致入微地观察Transformer模型带来的细节提升。

本次RTX 50系显卡采用了带宽速率更高的PCIe5.0x16,应用于显卡的PCIe5.0x16带宽速度高达128GB/s,用于固态硬盘的PCIe5.0x4也高达32GB/s,致态TiPro9000,实测顺序读写速度高达14526.95MB/s和13869.24MB/s,达到“满血”级别,可大幅提升操作系统/大型游戏/创作软件的响应和加载速度。

首先看一下GPU-Z的参数,最新的2.62版本已经能够识别GPU信息。AORUSGeforce RTX 5080 MASTER 16G采用GB203核心,采用与上一代相同的TSMC 4nm定制工艺(TSMC 4nm 4N NVIDIACustomProcess),芯片面积378mm2,相比于RTX 5090的750mm2小了一半。值得注意的是,在RTX 50系显卡中,使用了PCIE×165.0带宽。

相关文章

最新评论