更多

    當真做到 DLSS 4 四倍升頻? GeForce RTX 5090 D 效能解禁

    Wesley
    Wesley
    經遊戲進入腦界,見證 3D 渲染技術及遊戲引擎互相進步,深信 PC 平台或成最大贏家。

    NVIDIA 在 CES 上發表的 GeForce RTX 5090 作為新一代 Blackwell 架構旗艦顯示卡,採用 Blackwell GB202 GPU 核心,內部 Streaming Multiprocessor(SM)再有革新,結合 GDDR7 記憶體,以更具彈性的 AI 功能為玩家及創作者提供完美平台。DLSS 4 的多重影格生成更是未來 4K240Hz 遊戲體驗的必備技術。香港雖然和偉大祖國共享特供版 RTX 5090D,但無阻遊戲性能,《PCM》現在就公開玩家最關心的 RTX 5090D 的 DLSS 4 遊戲表現。

    GB202 旗艦大核

    GB202 核心完整架構
    GB202 核心完整架構
    GB202 核心特寫
    GB202 核心特寫

    GB202 是 RTX Blackwell GPU 系列的旗艦核心,電晶體數量達到 922 億個,採用 TSMC 4nm 4N 客製化製程,跟上代 RTX 4090 相同,用於 GeForce RTX 5090 / 5090 D。而 GeForce RTX 5080 顯示卡將使用 GB203 GPU,GeForce RTX 5070 使用 GB205 GPU,會有不同程度簡化,符合黃叔叔的精準刀法。完整的 GB202 GPU 包括 12 個圖形處理叢集 (GPC)、96 個紋理處理叢集 (TPC)、192 個串流處理器 (SM) 以及 512-bit (16×32) 記憶體控制器介面。合計 24,576個 CUDA Cores、192 個第 4 代 RT Cores、768 個第 5 代 Tensor Cores、768 Texture Units 及 192 個 ROPS。同樣地為更好應付 AI 及光追生成,GB202 GPU 最高有 128 MB L2 緩存。

    RTX Blackwell GPU的基本GPC構成,各級卡會增減GPC數量達成,RTX 5090 為 11組
    RTX Blackwell GPU 的基本 GPC 構成,光柵引擎、8 個 TPC、16 個 SM 和 16 個 ROP,各級 RTX 50 系 GPU 會以增減 GPC 數量達成,當中 RTX 5090 編配 11 組 GPC。
    每個串流處理器 (SM)內的CUDA Core配置
    每個串流處理器 (SM) 內的 CUDA Core 配置。

    於早前的 Blackwell 預覽中,已可見每個 SM 內的 CUDA Core 已統一為 FP32/INT32,並支援原生 FP4 運行模式,可以運用精度微微降低的模型(同時縮少記憶體需求)大幅提升一般消費級 AI 應用運算表現,而不會明顯影響效果。官方亦有提到其實在每個 SM 內,仍然有保留到兩個 FP64 核心,合共 384 個 FP64 核心。但 FP64 TFLOP 表現僅 FP32 操作的 TFLOP 的 1/64。目標是確保任何具有 FP64 程式碼的程式都能正常運作,並包含極少量 FP64 Tensor Core,在特別需求下維持兼容表現。

    【延伸閱讀】Blackwell 架構細節
    【延伸閱讀】GF RTX 5090 D 顯示卡開箱

    消費級 GF RTX 5090 核心

    GF RTX 5090 所用的 GB202 核心並非滿血規格,尚留有一手關閉部分單元。
    GF RTX 5090 所用的 GB202 核心並非滿血規格,尚留有一手關閉部分單元。圖為 RTX 5090 FE 的主 PCB。

    GF RTX 5090 所用的 GB202 核心並非滿血規格,尚留有一手關閉部分單元,僅開啟 11 組GPC,而可用的 L2 容量為 96 MB。參照整體規格,可見 RTX 5090 的細項部分對比 RTX 4090 差不多有 20-30% 提升,總電晶體數量約增加 20%、CUDA Core、Tensor Core、RT Core 等增加 30% 左右,L2 Cache 對比 RTX 4090 的 72MB 增加 30%。惟獨是改用 GDDR7 的關係,令記憶體有效頻寬大幅增加逾 70%。但是顯示卡功耗也直接增加至逾500W,最少要求 1000W電源供應器。

    顯示卡GF RTX 5090GF RTX 4090GF RTX 4080 Super
    核心代號GB202AD102AD103
    製程TSMC 4NTSMC 4NTSMC 4N
    電晶體數目922億763億459億
    GPC 數目11117
    CUDA / SP 數目217601639410240
    AI / Tensor 核心數目680512320
    RT 核心數目17012880
    Texture Unit 數目680512320
    ROP 數目176176112
    L2 Cache96MB72MB64MB
    遊戲時脈 MHz2407 MHz2520 MHz2550 MHz
    記憶體時脈28 Gbps21 Gbps23 Gbps
    搭載記憶體32GB GDDR724GB GDDR6X16GB GDDR6X
    記憶體位寬512-bit384-bit256-bit
    記憶體頻寬1792 GB/s1008 GB/s736 GB/s
    介面PCI-E 5.0PCI-E 4.0PCI-E 4.0
    功耗575W TGP450W TGP320W TGP
    售價USD1999USD1599USD999

    至於 AI 算力方面,標準 RTX 5090 在最新 FP4 模式可達到 3352 FP4 AI TOPS,而 RTX 5090 D 則會受限在 2375 FP4 AI TOPS,減幅約 30%,比例上和 4090 D 相若。但是可見其他核心規格沒有物理上的改變,相信是透過類似 RTX 30 系列的 LHR (低算力) 硬體鎖設計來限速,對遊戲級數的 AI 運算及一般光追效能不會有影響。

    GF RTX 5090 D 檢測規格
    GF RTX 5090 D 檢測規格。

    測試平台
    ・處理器:Intel Core i9 14900K
    ・主機板:ROG MAXIMUS Z790 EXTREME
    ・記憶體:32GB DDR5-6000

    DLSS 4 多重影格生成預覽

    NVIDIA GeForce 50 Blackwell
    Blackwell GPU 的 DLSS 4 可使用全新多重影格生成達 3X 及 4X。

    DLSS 4 在 RTX 50 系列上是個頗令人關注的功能,在 DLSS 3 中已被證實在遊戲引擎及處理器樽頸下,影格生成可有效提升幀速。而因為廠商不斷在雲端超級電腦為大量遊戲進行機械學習,改進 DLSS 的代碼修復渲染瑕疵,初期的像素粗糙、鬼影等問題已經在 DLSS 3.5.X 版本有巨大改善,特別是「超高效能」模式的升頻質素相當顯著、變得更實際可用。

    今次 DLSS 4 多重影格生成在原有 2X 上,再提供 3X 及 4X 選項,可為玩家的新一代 4K 240Hz+ 顯示器提供更佳流暢度,在 RTX 5090 的基礎渲染表現進一步提升,以升頻輔以 4X 多重影格生成,可挑戰 360fps 的水平。加入 Reflex 2 技術及 Transformer Models 亦有助縮短延遲及提升細緻度,並非純軟件方案如《Lossless Scaling》可比擬。

    多重影格生成會強制打開 Reflex 2 技術,防止輸入延遲
    多重影格生成會強制打開 Reflex 2 技術,防止輸入延遲。

    本文章試用的多款遊戲目前尚在內部測試,正式更新檔將在稍後公開,除了幀速倍數外,部分遊戲會讓玩家手動選擇渲染模型,以《Cyberpunk 2077》為例, Transformer Models 會稍稍增加運算負擔,但是在特定效果渲染有明顯改善,如警車的 LED 走馬燈細節可再現。《Alan Wake 2》在光線複雜的環境加上動態、透視物件如鐵絲網等,Denoise 去雜訊的表現亦會更加穩定。

    測試版《Cyberpunk 2077》的DLSS 4 設定
    測試版《Cyberpunk 2077》的DLSS 4 設定。
    DLSS 3 的CNN模型
    DLSS 3 的 CNN 渲染.
    DLSS 4 的 Transformer Models ,警車的LED走馬燈細節可再現
    DLSS 4 的 Transformer Models ,警車的 LED 走馬燈細節可再現。
    《Alan Wake 2》路徑追蹤渲染下,風扇轉動及後方景物的效果會更穩定。
    《Alan Wake 2》DLSS 4 路徑追蹤渲染下,風扇轉動及後方景物的效果會更穩定,金屬散射的去雜訊表現提升。

    為了縮短遊戲整合 DLSS 4 的時間,《NVIDIA App》將會為遊戲加入 DLSS 3 覆寫功能,可將多數 DLSS 3 的遊戲強制升級 DLSS 4 使用多重影格生成,至於 Transformer Models 則視乎遊戲,不一定可用。

    《NVIDIA App》將會為遊戲加入DLSS 3覆寫功能,可將多數 DLSS 3 的遊戲強制升級DLSS 4使用多重影格生成
    《NVIDIA App》將會為遊戲加入 DLSS 3 覆寫功能,可將多數 DLSS 3 的遊戲強制升級 DLSS 4 使用多重影格生成。
    顯示卡RTX5090 DRTX4090
    3DMark -Speed Way1466210121
    -Steel Nomad144769238
    -DLSS4 效能MFG 4x432.61
    -DLSS4 效能MFG 3x354.33
    -DLSS4 效能MFG 2x257.99
    -DLSS off77.7658.59
    -DLSS3 效能FG 2x243.32176.99
    顯示卡RTX 4090RTX 4090RTX 5090 DRTX 5090 DRTX 5090 D
    渲染模式原生DLSS -P FG原生DLSS -P FG 2XDLSS -P FG 4X
    Cyberpunk 2077
    -RT:OD
    24.01127.0135.14163.39281.39
    Starwars:Outlaw
    -Ultra
    2911736151270
    Hogwarts Legacy
    -Ultra
    5010053107210
    Marvel Rivals
    -Ultra
    94207115272470
    Alan Wake 2
    -high -RTu
    2913341168303
    顯示卡RTX 5090RTX 5090RTX 5090
    渲染模式原生DLSS -P FG 2XDLSS -P FG 4X
    Cyberpunk 2077 -RT:OD -原生35.14163.39281.39
    Average PC Latency (ms)1283336
    下方完全不使用DLSS 升頻,上方啟用DLSS 4 4X多重影格生成,留意延遲值(LAT)有降低
    下方完全不使用 DLSS 升頻,上方啟用 DLSS 4 4X 多重影格生成,留意 Average PC Latency PCL 延遲值 (LAT) 有降低。

    測試遊戲對比原生渲染下,4X 多重影格生成配合 DLSS 升頻「效能」可大幅提升流暢度,《Alan Wake 2》甚至可觸及 300fps 水平。再測量平均延遲值,配合 Reflex 2 仍然只不過是 36ms 左右,相對不啟用任何升頻及 Reflex 技術,平均延遲值超過 100ms 有明顯改善。參考一般遊戲在 20ms 至 50ms 水平,多數玩家不會出現明顯延遲感覺。不過 Reflex 2 技術有採用補償預測渲染,競技類遊戲環境如《Marvel Rivals》的細節畫質,要看 DLSS 4 的持續訓練改進,挑剔的玩家可視情況啟用。而DLSS 4 的多重影格生成偶爾亦會有一點推測瑕疵,但因為幀速極高畫面很快就會被「洗走」,不放慢及放大在多數情況下都不易察覺。

    RTX 5090 vs RTX 4090 基本效能比較

    顯示卡RTX 4090RTX 4090RTX 5090RTX 5090
    渲染模式原生DLSS P-2X FG原生DLSS P-2X FG
    Cyberpunk 2077 -RT:OD24.01127.0135.14163.39
    WuKong -影視級4112357156
    WuKong -影視級 -fRT2210031132
    奪寶奇兵古老之圈 -Ultra -FRT3210241125
    STALKER 2 -Epic95215114231
    Alan Wake 2 -high -RTu2913341168
    COD:BO6 -Extreme116182130232
    F1 24 -Ultra High82202115252
    Starwars:Outlaw -Ultra2911736151
    Hogwarts Legacy -Ultra5010053107
    Marvel Rivals -Ultra94207115250
    FFXIV Dawntrail* -Max18254283842322429683
    CS2 -最高 (僅FSR)*232.9342.9314.9417.4
    RE4 -最高 (僅FSR)*123158155157
    註*:不支援影格生成

    RTX 5090 的 GPU 規格提升,可預料的非 DLSS 基本運算效能也會顯著增長,如非受到遊戲引擎限制,最少可見平均有逾 20% 提升,如果使用路徑追蹤渲染,原生渲染更可見 40% 效能變化,比如《黑悟空》、《Cyberpunk 2077》、《Alan Wake 2》等都能受惠。只計算跑舊遊戲及非DLSS 4 及光追路徑渲染的遊戲,如只有AMD FSR的《RE4》增長未必那麼可觀,遊戲引擎似乎已經在160fps左右封頂,《FFXIV》只有基本DLSS升頻亦不太標青。而渲染畫面不複雜的《CS2》只有畫質一般的FSR升頻,真實幀速仍是上得到400fps水平,算是很不錯。

    AI、生產力及多媒體編碼

    顯示卡RTX 5090DRTX 4090
    Procyon -AI text Gen
    -PHI 3.5
    52654467
    -MISTRAL 7B57964628
    -LLAMA 3.164984876
    -LLAMA 263024776
    Blender -monster7403.975545.84
    -junkshop3913.472701.57
    -classroom3668.542802.88
    DaVinci 19 StudioRTX 5090DVoukoder CPU
    H.265 4:2:2 10 4K6011sec148sec

    在 AI 及多媒體編碼方面,RTX 5090 D 在 AI 文字生成語言模型測試中仍有一定增長,LLAMA 可見有約 30% 提升。3D 渲染方面也有和遊戲差不多的表現改善。而全新 H.265 4:2:2 編碼加速更是今代獨有,RTX 40 及其他只可使用 4:2:0 加速, 4:2:2 強制為純軟件編碼,效率提升數倍計,對影片製作流程有大幫助。

    至於 FP4 精度生成式圖片,目前尚處於測試階段,亦要特製版本 Procyon 才可運行,其他生成式工具載入模型,也需要社群優化成 FP4 版本,才可發揮 RTX 50 的最高效率,尚要一些時間才會成熟。

    Procyon -AI text Gen測試成績
    Procyon -AI text Gen 測試成績。
    全新 H265 4:2:2 編碼加速是 RTX 50 獨有,RTX 40及其他只可使用處理器編碼
    全新 H.265 4:2:2 編碼加速是 RTX 50 獨有,RTX 40 及其他只可使用 4:2:0 處理器編碼或 4:4:4 編碼加速。

    總結:加價加效能

    RTX 5090 售價達到 USD1999,比 RTX 4090 的首發價 USD1599 加價近 30%,而RTX 5090 D 的售價為 RMB16,499 起,換算差不多是 USD2255,先不計算外匯折讓問題。從遊戲表現來看,加價的幅度跟核心規格提升幅度有正比趨勢,並附加更多記憶體,用家付出更多金錢,獲取更高效能是合理預期,印證了黃仁勳回應新卡更貴,但終極玩家在意的是它有更高效能,RTX 5090是「一分錢一分貨」,當去除影格生成的每幀真實渲染畫面功耗成本並不算很「抵買」,因為 GB202 沒有更新製程,換句話說多 20% 電晶體令 DIE 面積直接增大,晶圓功耗、製造成本當然是更高。次一級 RTX 5080 才會跟 RTX 4080 Super 相同在USD999 水平,才可以更貼近比較隔代表現變化(或是黃叔叔的刀功),有了 DLSS 4 多重影格生成加持,多數遊戲玩家會更關心其表現。

    【延伸閱讀】Blackwell 架構細節
    【延伸閱讀】GF RTX 5090 D 顯示卡開箱

    您會感興趣的內容

    相關文章