當真做到 DLSS 4 四倍升頻？　GeForce RTX 5090 D 效能解禁

NVIDIA 在 CES 上發表的 GeForce RTX 5090 作為新一代 Blackwell 架構旗艦顯示卡，採用 Blackwell GB202 GPU 核心，內部 Streaming Multiprocessor(SM)再有革新，結合 GDDR7 記憶體，以更具彈性的 AI 功能為玩家及創作者提供完美平台。DLSS 4 的多重影格生成更是未來 4K240Hz 遊戲體驗的必備技術。香港雖然和偉大祖國共享特供版 RTX 5090D，但無阻遊戲性能，《PCM》現在就公開玩家最關心的 RTX 5090D 的 DLSS 4 遊戲表現。

GB202 旗艦大核

GB202 是 RTX Blackwell GPU 系列的旗艦核心，電晶體數量達到 922 億個，採用 TSMC 4nm 4N 客製化製程，跟上代 RTX 4090 相同，用於 GeForce RTX 5090 / 5090 D。而 GeForce RTX 5080 顯示卡將使用 GB203 GPU，GeForce RTX 5070 使用 GB205 GPU，會有不同程度簡化，符合黃叔叔的精準刀法。完整的 GB202 GPU 包括 12 個圖形處理叢集 (GPC)、96 個紋理處理叢集 (TPC)、192 個串流處理器 (SM) 以及 512-bit (16×32) 記憶體控制器介面。合計 24,576個 CUDA Cores、192 個第 4 代 RT Cores、768 個第 5 代 Tensor Cores、768 Texture Units 及 192 個 ROPS。同樣地為更好應付 AI 及光追生成，GB202 GPU 最高有 128 MB L2 緩存。

RTX Blackwell GPU的基本GPC構成,各級卡會增減GPC數量達成,RTX 5090 為 11組 — RTX Blackwell GPU 的基本 GPC 構成，光柵引擎、8 個 TPC、16 個 SM 和 16 個 ROP，各級 RTX 50 系 GPU 會以增減 GPC 數量達成，當中 RTX 5090 編配 11 組 GPC。

每個串流處理器 (SM)內的CUDA Core配置 — 每個串流處理器 (SM) 內的 CUDA Core 配置。

於早前的 Blackwell 預覽中，已可見每個 SM 內的 CUDA Core 已統一為 FP32/INT32，並支援原生 FP4 運行模式，可以運用精度微微降低的模型（同時縮少記憶體需求）大幅提升一般消費級 AI 應用運算表現，而不會明顯影響效果。官方亦有提到其實在每個 SM 內，仍然有保留到兩個 FP64 核心，合共 384 個 FP64 核心。但 FP64 TFLOP 表現僅 FP32 操作的 TFLOP 的 1/64。目標是確保任何具有 FP64 程式碼的程式都能正常運作，並包含極少量 FP64 Tensor Core，在特別需求下維持兼容表現。

【延伸閱讀】Blackwell 架構細節
【延伸閱讀】GF RTX 5090 D 顯示卡開箱

消費級 GF RTX 5090 核心

GF RTX 5090 所用的 GB202 核心並非滿血規格，尚留有一手關閉部分單元，僅開啟 11 組GPC，而可用的 L2 容量為 96 MB。參照整體規格，可見 RTX 5090 的細項部分對比 RTX 4090 差不多有 20-30% 提升，總電晶體數量約增加 20%、CUDA Core、Tensor Core、RT Core 等增加 30% 左右，L2 Cache 對比 RTX 4090 的 72MB 增加 30%。惟獨是改用 GDDR7 的關係，令記憶體有效頻寬大幅增加逾 70%。但是顯示卡功耗也直接增加至逾500W，最少要求 1000W電源供應器。

顯示卡	GF RTX 5090	GF RTX 4090	GF RTX 4080 Super
核心代號	GB202	AD102	AD103
製程	TSMC 4N	TSMC 4N	TSMC 4N
電晶體數目	922億	763億	459億
GPC 數目	11	11	7
CUDA / SP 數目	21760	16394	10240
AI / Tensor 核心數目	680	512	320
RT 核心數目	170	128	80
Texture Unit 數目	680	512	320
ROP 數目	176	176	112
L2 Cache	96MB	72MB	64MB
遊戲時脈 MHz	2407 MHz	2520 MHz	2550 MHz
記憶體時脈	28 Gbps	21 Gbps	23 Gbps
搭載記憶體	32GB GDDR7	24GB GDDR6X	16GB GDDR6X
記憶體位寬	512-bit	384-bit	256-bit
記憶體頻寬	1792 GB/s	1008 GB/s	736 GB/s
介面	PCI-E 5.0	PCI-E 4.0	PCI-E 4.0
功耗	575W TGP	450W TGP	320W TGP
售價	USD1999	USD1599	USD999

至於 AI 算力方面，標準 RTX 5090 在最新 FP4 模式可達到 3352 FP4 AI TOPS，而 RTX 5090 D 則會受限在 2375 FP4 AI TOPS，減幅約 30%，比例上和 4090 D 相若。但是可見其他核心規格沒有物理上的改變，相信是透過類似 RTX 30 系列的 LHR (低算力) 硬體鎖設計來限速，對遊戲級數的 AI 運算及一般光追效能不會有影響。

測試平台
・處理器：Intel Core i9 14900K
・主機板：ROG MAXIMUS Z790 EXTREME
・記憶體：32GB DDR5-6000

DLSS 4 多重影格生成預覽

NVIDIA GeForce 50 Blackwell — Blackwell GPU 的 DLSS 4 可使用全新多重影格生成達 3X 及 4X。

DLSS 4 在 RTX 50 系列上是個頗令人關注的功能，在 DLSS 3 中已被證實在遊戲引擎及處理器樽頸下，影格生成可有效提升幀速。而因為廠商不斷在雲端超級電腦為大量遊戲進行機械學習，改進 DLSS 的代碼修復渲染瑕疵，初期的像素粗糙、鬼影等問題已經在 DLSS 3.5.X 版本有巨大改善，特別是「超高效能」模式的升頻質素相當顯著、變得更實際可用。

今次 DLSS 4 多重影格生成在原有 2X 上，再提供 3X 及 4X 選項，可為玩家的新一代 4K 240Hz+ 顯示器提供更佳流暢度，在 RTX 5090 的基礎渲染表現進一步提升，以升頻輔以 4X 多重影格生成，可挑戰 360fps 的水平。加入 Reflex 2 技術及 Transformer Models 亦有助縮短延遲及提升細緻度，並非純軟件方案如《Lossless Scaling》可比擬。

本文章試用的多款遊戲目前尚在內部測試，正式更新檔將在稍後公開，除了幀速倍數外，部分遊戲會讓玩家手動選擇渲染模型，以《Cyberpunk 2077》為例， Transformer Models 會稍稍增加運算負擔，但是在特定效果渲染有明顯改善，如警車的 LED 走馬燈細節可再現。《Alan Wake 2》在光線複雜的環境加上動態、透視物件如鐵絲網等，Denoise 去雜訊的表現亦會更加穩定。

DLSS 4 的 Transformer Models ，警車的LED走馬燈細節可再現 — DLSS 4 的 Transformer Models ，警車的 LED 走馬燈細節可再現。

《Alan Wake 2》路徑追蹤渲染下，風扇轉動及後方景物的效果會更穩定。 — 《Alan Wake 2》DLSS 4 路徑追蹤渲染下，風扇轉動及後方景物的效果會更穩定，金屬散射的去雜訊表現提升。

為了縮短遊戲整合 DLSS 4 的時間，《NVIDIA App》將會為遊戲加入 DLSS 3 覆寫功能，可將多數 DLSS 3 的遊戲強制升級 DLSS 4 使用多重影格生成，至於 Transformer Models 則視乎遊戲，不一定可用。

顯示卡	RTX5090 D	RTX4090
3DMark -Speed Way	14662	10121
-Steel Nomad	14476	9238
-DLSS4 效能MFG 4x	432.61	–
-DLSS4 效能MFG 3x	354.33	–
-DLSS4 效能MFG 2x	257.99	–
-DLSS off	77.76	58.59
-DLSS3 效能FG 2x	243.32	176.99

顯示卡	RTX 4090	RTX 4090	RTX 5090 D	RTX 5090 D	RTX 5090 D
渲染模式	原生	DLSS -P FG	原生	DLSS -P FG 2X	DLSS -P FG 4X
Cyberpunk 2077 -RT:OD	24.01	127.01	35.14	163.39	281.39
Starwars:Outlaw -Ultra	29	117	36	151	270
Hogwarts Legacy -Ultra	50	100	53	107	210
Marvel Rivals -Ultra	94	207	115	272	470
Alan Wake 2 -high -RTu	29	133	41	168	303

顯示卡	RTX 5090	RTX 5090	RTX 5090
渲染模式	原生	DLSS -P FG 2X	DLSS -P FG 4X
Cyberpunk 2077 -RT:OD -原生	35.14	163.39	281.39
Average PC Latency (ms)	128	33	36

下方完全不使用DLSS 升頻，上方啟用DLSS 4 4X多重影格生成，留意延遲值(LAT)有降低 — 下方完全不使用 DLSS 升頻，上方啟用 DLSS 4 4X 多重影格生成，留意 Average PC Latency PCL 延遲值 (LAT) 有降低。

測試遊戲對比原生渲染下，4X 多重影格生成配合 DLSS 升頻「效能」可大幅提升流暢度，《Alan Wake 2》甚至可觸及 300fps 水平。再測量平均延遲值，配合 Reflex 2 仍然只不過是 36ms 左右，相對不啟用任何升頻及 Reflex 技術，平均延遲值超過 100ms 有明顯改善。參考一般遊戲在 20ms 至 50ms 水平，多數玩家不會出現明顯延遲感覺。不過 Reflex 2 技術有採用補償預測渲染，競技類遊戲環境如《Marvel Rivals》的細節畫質，要看 DLSS 4 的持續訓練改進，挑剔的玩家可視情況啟用。而DLSS 4 的多重影格生成偶爾亦會有一點推測瑕疵，但因為幀速極高畫面很快就會被「洗走」，不放慢及放大在多數情況下都不易察覺。

RTX 5090 vs RTX 4090 基本效能比較

顯示卡	RTX 4090	RTX 4090	RTX 5090	RTX 5090
渲染模式	原生	DLSS P-2X FG	原生	DLSS P-2X FG
Cyberpunk 2077 -RT:OD	24.01	127.01	35.14	163.39
WuKong -影視級	41	123	57	156
WuKong -影視級　-fRT	22	100	31	132
奪寶奇兵古老之圈 -Ultra -FRT	32	102	41	125
STALKER 2 -Epic	95	215	114	231
Alan Wake 2 -high -RTu	29	133	41	168
COD:BO6 -Extreme	116	182	130	232
F1 24 -Ultra High	82	202	115	252
Starwars:Outlaw -Ultra	29	117	36	151
Hogwarts Legacy -Ultra	50	100	53	107
Marvel Rivals -Ultra	94	207	115	250
FFXIV Dawntrail* -Max	18254	28384	23224	29683
CS2 -最高 (僅FSR)*	232.9	342.9	314.9	417.4
RE4 -最高 (僅FSR)*	123	158	155	157

註*:不支援影格生成

RTX 5090 的 GPU 規格提升，可預料的非 DLSS 基本運算效能也會顯著增長，如非受到遊戲引擎限制，最少可見平均有逾 20% 提升，如果使用路徑追蹤渲染，原生渲染更可見 40% 效能變化，比如《黑悟空》、《Cyberpunk 2077》、《Alan Wake 2》等都能受惠。只計算跑舊遊戲及非DLSS 4 及光追路徑渲染的遊戲，如只有AMD FSR的《RE4》增長未必那麼可觀，遊戲引擎似乎已經在160fps左右封頂，《FFXIV》只有基本DLSS升頻亦不太標青。而渲染畫面不複雜的《CS2》只有畫質一般的FSR升頻，真實幀速仍是上得到400fps水平，算是很不錯。

AI、生產力及多媒體編碼

顯示卡	RTX 5090D	RTX 4090
Procyon -AI text Gen -PHI 3.5	5265	4467
-MISTRAL 7B	5796	4628
-LLAMA 3.1	6498	4876
-LLAMA 2	6302	4776
Blender -monster	7403.97	5545.84
-junkshop	3913.47	2701.57
-classroom	3668.54	2802.88
DaVinci 19 Studio	RTX 5090D	Voukoder CPU
H.265 4:2:2 10 4K60	11sec	148sec

在 AI 及多媒體編碼方面，RTX 5090 D 在 AI 文字生成語言模型測試中仍有一定增長，LLAMA 可見有約 30% 提升。3D 渲染方面也有和遊戲差不多的表現改善。而全新 H.265 4:2:2 編碼加速更是今代獨有，RTX 40 及其他只可使用 4:2:0 加速， 4:2:2 強制為純軟件編碼，效率提升數倍計，對影片製作流程有大幫助。

至於 FP4 精度生成式圖片，目前尚處於測試階段，亦要特製版本 Procyon 才可運行，其他生成式工具載入模型，也需要社群優化成 FP4 版本，才可發揮 RTX 50 的最高效率，尚要一些時間才會成熟。

Procyon -AI text Gen測試成績 — Procyon -AI text Gen 測試成績。

全新 H265 4:2:2 編碼加速是 RTX 50 獨有，RTX 40及其他只可使用處理器編碼 — 全新 H.265 4:2:2 編碼加速是 RTX 50 獨有，RTX 40 及其他只可使用 4:2:0 處理器編碼或 4:4:4 編碼加速。

總結：加價加效能

RTX 5090 售價達到 USD1999，比 RTX 4090 的首發價 USD1599 加價近 30%，而RTX 5090 D 的售價為 RMB16,499 起，換算差不多是 USD2255，先不計算外匯折讓問題。從遊戲表現來看，加價的幅度跟核心規格提升幅度有正比趨勢，並附加更多記憶體，用家付出更多金錢，獲取更高效能是合理預期，印證了黃仁勳回應新卡更貴，但終極玩家在意的是它有更高效能，RTX 5090是「一分錢一分貨」，當去除影格生成的每幀真實渲染畫面功耗成本並不算很「抵買」，因為 GB202 沒有更新製程，換句話說多 20% 電晶體令 DIE 面積直接增大，晶圓功耗、製造成本當然是更高。次一級 RTX 5080 才會跟 RTX 4080 Super 相同在USD999 水平，才可以更貼近比較隔代表現變化（或是黃叔叔的刀功），有了 DLSS 4 多重影格生成加持，多數遊戲玩家會更關心其表現。

【延伸閱讀】Blackwell 架構細節
【延伸閱讀】GF RTX 5090 D 顯示卡開箱

當真做到 DLSS 4 四倍升頻？　GeForce RTX 5090 D 效能解禁

Ultra 9 285K 雞血升級　Intel 200S Boost 遊戲快 10%

免費最貴？商場泊車優惠裝 App 前議員稱擾民　網民各有見解

魂系作品入門 GPU 流暢應付　第一狂戰士：卡贊試玩

GB202 旗艦大核

消費級 GF RTX 5090 核心

DLSS 4 多重影格生成預覽

RTX 5090 vs RTX 4090 基本效能比較

AI、生產力及多媒體編碼

總結：加價加效能

您會感興趣的內容

相關文章

當真做到 DLSS 4 四倍升頻？ GeForce RTX 5090 D 效能解禁

GB202 旗艦大核

消費級 GF RTX 5090 核心

DLSS 4 多重影格生成預覽

RTX 5090 vs RTX 4090 基本效能比較

AI、生產力及多媒體編碼

總結：加價加效能

您會感興趣的內容

相關文章

當真做到 DLSS 4 四倍升頻？　GeForce RTX 5090 D 效能解禁