NVIDIA 在 CES 上發表的 GeForce RTX 5090 作為新一代 Blackwell 架構旗艦顯示卡,採用 Blackwell GB202 GPU 核心,內部 Streaming Multiprocessor(SM)再有革新,結合 GDDR7 記憶體,以更具彈性的 AI 功能為玩家及創作者提供完美平台。DLSS 4 的多重影格生成更是未來 4K240Hz 遊戲體驗的必備技術。香港雖然和偉大祖國共享特供版 RTX 5090D,但無阻遊戲性能,《PCM》現在就公開玩家最關心的 RTX 5090D 的 DLSS 4 遊戲表現。
GB202 旗艦大核
GB202 是 RTX Blackwell GPU 系列的旗艦核心,電晶體數量達到 922 億個,採用 TSMC 4nm 4N 客製化製程,跟上代 RTX 4090 相同,用於 GeForce RTX 5090 / 5090 D。而 GeForce RTX 5080 顯示卡將使用 GB203 GPU,GeForce RTX 5070 使用 GB205 GPU,會有不同程度簡化,符合黃叔叔的精準刀法。完整的 GB202 GPU 包括 12 個圖形處理叢集 (GPC)、96 個紋理處理叢集 (TPC)、192 個串流處理器 (SM) 以及 512-bit (16×32) 記憶體控制器介面。合計 24,576個 CUDA Cores、192 個第 4 代 RT Cores、768 個第 5 代 Tensor Cores、768 Texture Units 及 192 個 ROPS。同樣地為更好應付 AI 及光追生成,GB202 GPU 最高有 128 MB L2 緩存。
於早前的 Blackwell 預覽中,已可見每個 SM 內的 CUDA Core 已統一為 FP32/INT32,並支援原生 FP4 運行模式,可以運用精度微微降低的模型(同時縮少記憶體需求)大幅提升一般消費級 AI 應用運算表現,而不會明顯影響效果。官方亦有提到其實在每個 SM 內,仍然有保留到兩個 FP64 核心,合共 384 個 FP64 核心。但 FP64 TFLOP 表現僅 FP32 操作的 TFLOP 的 1/64。目標是確保任何具有 FP64 程式碼的程式都能正常運作,並包含極少量 FP64 Tensor Core,在特別需求下維持兼容表現。
【延伸閱讀】Blackwell 架構細節
【延伸閱讀】GF RTX 5090 D 顯示卡開箱
消費級 GF RTX 5090 核心
GF RTX 5090 所用的 GB202 核心並非滿血規格,尚留有一手關閉部分單元,僅開啟 11 組GPC,而可用的 L2 容量為 96 MB。參照整體規格,可見 RTX 5090 的細項部分對比 RTX 4090 差不多有 20-30% 提升,總電晶體數量約增加 20%、CUDA Core、Tensor Core、RT Core 等增加 30% 左右,L2 Cache 對比 RTX 4090 的 72MB 增加 30%。惟獨是改用 GDDR7 的關係,令記憶體有效頻寬大幅增加逾 70%。但是顯示卡功耗也直接增加至逾500W,最少要求 1000W電源供應器。
顯示卡 | GF RTX 5090 | GF RTX 4090 | GF RTX 4080 Super |
---|---|---|---|
核心代號 | GB202 | AD102 | AD103 |
製程 | TSMC 4N | TSMC 4N | TSMC 4N |
電晶體數目 | 922億 | 763億 | 459億 |
GPC 數目 | 11 | 11 | 7 |
CUDA / SP 數目 | 21760 | 16394 | 10240 |
AI / Tensor 核心數目 | 680 | 512 | 320 |
RT 核心數目 | 170 | 128 | 80 |
Texture Unit 數目 | 680 | 512 | 320 |
ROP 數目 | 176 | 176 | 112 |
L2 Cache | 96MB | 72MB | 64MB |
遊戲時脈 MHz | 2407 MHz | 2520 MHz | 2550 MHz |
記憶體時脈 | 28 Gbps | 21 Gbps | 23 Gbps |
搭載記憶體 | 32GB GDDR7 | 24GB GDDR6X | 16GB GDDR6X |
記憶體位寬 | 512-bit | 384-bit | 256-bit |
記憶體頻寬 | 1792 GB/s | 1008 GB/s | 736 GB/s |
介面 | PCI-E 5.0 | PCI-E 4.0 | PCI-E 4.0 |
功耗 | 575W TGP | 450W TGP | 320W TGP |
售價 | USD1999 | USD1599 | USD999 |
至於 AI 算力方面,標準 RTX 5090 在最新 FP4 模式可達到 3352 FP4 AI TOPS,而 RTX 5090 D 則會受限在 2375 FP4 AI TOPS,減幅約 30%,比例上和 4090 D 相若。但是可見其他核心規格沒有物理上的改變,相信是透過類似 RTX 30 系列的 LHR (低算力) 硬體鎖設計來限速,對遊戲級數的 AI 運算及一般光追效能不會有影響。
測試平台
・處理器:Intel Core i9 14900K
・主機板:ROG MAXIMUS Z790 EXTREME
・記憶體:32GB DDR5-6000
DLSS 4 多重影格生成預覽
DLSS 4 在 RTX 50 系列上是個頗令人關注的功能,在 DLSS 3 中已被證實在遊戲引擎及處理器樽頸下,影格生成可有效提升幀速。而因為廠商不斷在雲端超級電腦為大量遊戲進行機械學習,改進 DLSS 的代碼修復渲染瑕疵,初期的像素粗糙、鬼影等問題已經在 DLSS 3.5.X 版本有巨大改善,特別是「超高效能」模式的升頻質素相當顯著、變得更實際可用。
今次 DLSS 4 多重影格生成在原有 2X 上,再提供 3X 及 4X 選項,可為玩家的新一代 4K 240Hz+ 顯示器提供更佳流暢度,在 RTX 5090 的基礎渲染表現進一步提升,以升頻輔以 4X 多重影格生成,可挑戰 360fps 的水平。加入 Reflex 2 技術及 Transformer Models 亦有助縮短延遲及提升細緻度,並非純軟件方案如《Lossless Scaling》可比擬。
本文章試用的多款遊戲目前尚在內部測試,正式更新檔將在稍後公開,除了幀速倍數外,部分遊戲會讓玩家手動選擇渲染模型,以《Cyberpunk 2077》為例, Transformer Models 會稍稍增加運算負擔,但是在特定效果渲染有明顯改善,如警車的 LED 走馬燈細節可再現。《Alan Wake 2》在光線複雜的環境加上動態、透視物件如鐵絲網等,Denoise 去雜訊的表現亦會更加穩定。
為了縮短遊戲整合 DLSS 4 的時間,《NVIDIA App》將會為遊戲加入 DLSS 3 覆寫功能,可將多數 DLSS 3 的遊戲強制升級 DLSS 4 使用多重影格生成,至於 Transformer Models 則視乎遊戲,不一定可用。
顯示卡 | RTX5090 D | RTX4090 |
---|---|---|
3DMark -Speed Way | 14662 | 10121 |
-Steel Nomad | 14476 | 9238 |
-DLSS4 效能MFG 4x | 432.61 | – |
-DLSS4 效能MFG 3x | 354.33 | – |
-DLSS4 效能MFG 2x | 257.99 | – |
-DLSS off | 77.76 | 58.59 |
-DLSS3 效能FG 2x | 243.32 | 176.99 |
顯示卡 | RTX 4090 | RTX 4090 | RTX 5090 D | RTX 5090 D | RTX 5090 D |
---|---|---|---|---|---|
渲染模式 | 原生 | DLSS -P FG | 原生 | DLSS -P FG 2X | DLSS -P FG 4X |
Cyberpunk 2077 -RT:OD | 24.01 | 127.01 | 35.14 | 163.39 | 281.39 |
Starwars:Outlaw -Ultra | 29 | 117 | 36 | 151 | 270 |
Hogwarts Legacy -Ultra | 50 | 100 | 53 | 107 | 210 |
Marvel Rivals -Ultra | 94 | 207 | 115 | 272 | 470 |
Alan Wake 2 -high -RTu | 29 | 133 | 41 | 168 | 303 |
顯示卡 | RTX 5090 | RTX 5090 | RTX 5090 |
---|---|---|---|
渲染模式 | 原生 | DLSS -P FG 2X | DLSS -P FG 4X |
Cyberpunk 2077 -RT:OD -原生 | 35.14 | 163.39 | 281.39 |
Average PC Latency (ms) | 128 | 33 | 36 |
測試遊戲對比原生渲染下,4X 多重影格生成配合 DLSS 升頻「效能」可大幅提升流暢度,《Alan Wake 2》甚至可觸及 300fps 水平。再測量平均延遲值,配合 Reflex 2 仍然只不過是 36ms 左右,相對不啟用任何升頻及 Reflex 技術,平均延遲值超過 100ms 有明顯改善。參考一般遊戲在 20ms 至 50ms 水平,多數玩家不會出現明顯延遲感覺。不過 Reflex 2 技術有採用補償預測渲染,競技類遊戲環境如《Marvel Rivals》的細節畫質,要看 DLSS 4 的持續訓練改進,挑剔的玩家可視情況啟用。而DLSS 4 的多重影格生成偶爾亦會有一點推測瑕疵,但因為幀速極高畫面很快就會被「洗走」,不放慢及放大在多數情況下都不易察覺。
RTX 5090 vs RTX 4090 基本效能比較
顯示卡 | RTX 4090 | RTX 4090 | RTX 5090 | RTX 5090 |
---|---|---|---|---|
渲染模式 | 原生 | DLSS P-2X FG | 原生 | DLSS P-2X FG |
Cyberpunk 2077 -RT:OD | 24.01 | 127.01 | 35.14 | 163.39 |
WuKong -影視級 | 41 | 123 | 57 | 156 |
WuKong -影視級 -fRT | 22 | 100 | 31 | 132 |
奪寶奇兵古老之圈 -Ultra -FRT | 32 | 102 | 41 | 125 |
STALKER 2 -Epic | 95 | 215 | 114 | 231 |
Alan Wake 2 -high -RTu | 29 | 133 | 41 | 168 |
COD:BO6 -Extreme | 116 | 182 | 130 | 232 |
F1 24 -Ultra High | 82 | 202 | 115 | 252 |
Starwars:Outlaw -Ultra | 29 | 117 | 36 | 151 |
Hogwarts Legacy -Ultra | 50 | 100 | 53 | 107 |
Marvel Rivals -Ultra | 94 | 207 | 115 | 250 |
FFXIV Dawntrail* -Max | 18254 | 28384 | 23224 | 29683 |
CS2 -最高 (僅FSR)* | 232.9 | 342.9 | 314.9 | 417.4 |
RE4 -最高 (僅FSR)* | 123 | 158 | 155 | 157 |
RTX 5090 的 GPU 規格提升,可預料的非 DLSS 基本運算效能也會顯著增長,如非受到遊戲引擎限制,最少可見平均有逾 20% 提升,如果使用路徑追蹤渲染,原生渲染更可見 40% 效能變化,比如《黑悟空》、《Cyberpunk 2077》、《Alan Wake 2》等都能受惠。只計算跑舊遊戲及非DLSS 4 及光追路徑渲染的遊戲,如只有AMD FSR的《RE4》增長未必那麼可觀,遊戲引擎似乎已經在160fps左右封頂,《FFXIV》只有基本DLSS升頻亦不太標青。而渲染畫面不複雜的《CS2》只有畫質一般的FSR升頻,真實幀速仍是上得到400fps水平,算是很不錯。
AI、生產力及多媒體編碼
顯示卡 | RTX 5090D | RTX 4090 |
---|---|---|
Procyon -AI text Gen -PHI 3.5 | 5265 | 4467 |
-MISTRAL 7B | 5796 | 4628 |
-LLAMA 3.1 | 6498 | 4876 |
-LLAMA 2 | 6302 | 4776 |
Blender -monster | 7403.97 | 5545.84 |
-junkshop | 3913.47 | 2701.57 |
-classroom | 3668.54 | 2802.88 |
DaVinci 19 Studio | RTX 5090D | Voukoder CPU |
H.265 4:2:2 10 4K60 | 11sec | 148sec |
在 AI 及多媒體編碼方面,RTX 5090 D 在 AI 文字生成語言模型測試中仍有一定增長,LLAMA 可見有約 30% 提升。3D 渲染方面也有和遊戲差不多的表現改善。而全新 H.265 4:2:2 編碼加速更是今代獨有,RTX 40 及其他只可使用 4:2:0 加速, 4:2:2 強制為純軟件編碼,效率提升數倍計,對影片製作流程有大幫助。
至於 FP4 精度生成式圖片,目前尚處於測試階段,亦要特製版本 Procyon 才可運行,其他生成式工具載入模型,也需要社群優化成 FP4 版本,才可發揮 RTX 50 的最高效率,尚要一些時間才會成熟。
總結:加價加效能
RTX 5090 售價達到 USD1999,比 RTX 4090 的首發價 USD1599 加價近 30%,而RTX 5090 D 的售價為 RMB16,499 起,換算差不多是 USD2255,先不計算外匯折讓問題。從遊戲表現來看,加價的幅度跟核心規格提升幅度有正比趨勢,並附加更多記憶體,用家付出更多金錢,獲取更高效能是合理預期,印證了黃仁勳回應新卡更貴,但終極玩家在意的是它有更高效能,RTX 5090是「一分錢一分貨」,當去除影格生成的每幀真實渲染畫面功耗成本並不算很「抵買」,因為 GB202 沒有更新製程,換句話說多 20% 電晶體令 DIE 面積直接增大,晶圓功耗、製造成本當然是更高。次一級 RTX 5080 才會跟 RTX 4080 Super 相同在USD999 水平,才可以更貼近比較隔代表現變化(或是黃叔叔的刀功),有了 DLSS 4 多重影格生成加持,多數遊戲玩家會更關心其表現。
【延伸閱讀】Blackwell 架構細節
【延伸閱讀】GF RTX 5090 D 顯示卡開箱