踏入 9 月, NVIDIA 發佈期待以久的 GeForce RTX 3090/3080/3070 顯示卡,宣稱效能是上一代的 2 倍,壓軸登場的旗艦版本更宣稱擁有 8K 60fps 遊戲性能,技驚四座,然而在理論性能的背景,新卡在繪圖架構上有多少改進之處呢?筆者曾任職 Product Marketing ,經常參與 SPEC 的制定工作,深明 Product Marketing 要在不產生法律問題的前題下,推出扣人心弦的規格,因此本文特別參考了 GA100 Whitepaper ,嘗試為大家揭露新卡的最真實一面。
2 代 RTX 的改進
作為第二代 GeForce RTX 顯示卡,NVIDIA 比較了兩代 RTX 顯示卡的性能,第 1 代產品 RTX 2080 擁有 11 Shader TFLOPS 、 34 RT TFLOPS 及 89 Tensor TFLOPS,而第 2 代 RTX 3080 則升級至 30 Shader TFLOPS 、 58 RT TFLOPS 及 238 Tensor TFLOPS,相當於有 2.7X 、1.7X 及 2.7X 的提升,十分可觀。
Samsung 8N 創下 10496 Cores
新卡也是 NVIDIA 首款採用 Samsung 8nm 製程的產品,有別於早前 GA100 的 TSMC 7nm 製程。RTX 3090/3080 核心代號為 GA102,擁有 280 億顆電晶體,但 RTX 3090/3080 竟擁有 10496 及 8704 CUDA Cores ,竟較擁有 542 億顆電晶體 GA100 的 6912 CUDA Cores 還要多,耐人尋味。究其原因,在於 Ampere 架構大大改進 FP32 單元,提供 2X 性能有關。如果以傳統的計算方法, RTX 3090/3080 分別只有 5248 及 4352 CUDA Cores,但進取的 Product Marketing 標示為雙倍 Cores 即 10496 及 8704。
2nd RT 及 3rd Tensor Cores
按 NVIDIA 的說法, Ampere 架構的 RT Cores 及 Tensor Cores 分別為第 2 代及第 3 代,對比Turing 架構為第 1 代及第 2 代。參考 GA100 核心只有 4 Tensor Cores / SM、總 Tensor Cores 數目只有 432,竟比 RTX 2080 Ti 的 8 Tensor Cores / SM,總 544 Tensor Cores 還要少。因此NVIDIA 並未於發佈會中公佈新卡所含 RT Cores 及 Tensor Cores 數目,僅提供 RT TFLOPS 及 Tensor TFLOPS 作為參考。 不過 NVIDIA 表示 2nd RT Cores 擁有 2X Ray/Triangle Intersection ,並容許 RT + Graphics/Compute 同時工作,所以效能較上代產品大大提升。至於 Tensor Cores 的改進更是重中之重, Ampere 架構不但大大強化其執行效率,而且新增可以處理更多不同精度的運算,如 bfloat 16 等等。
RTX 3080 最先登場
RTX 3080 將是首款登場的型號,預計在 9 月 17 日正式開售。此卡號稱擁有 RTX 2080 2X 的性能,定價在 US$699,將用於取代 RTX 2080 SUPER 。公版擁有 10GB 19Gbps GDDR6X ,記憶體頻寬為 760GB ,據說 AIC 已在準備 20GB 版本,大家不妨拭目以待。
擁有 2080 Ti 性能的 3070
RTX 3070 推出時間在 10 月,但卻是最令人期待的高性價比版本,定價與目前 RTX 2070 SUPER 同為 US$499 ,但宣稱擁有超過 RTX 2080 Ti 的性能。另外,筆者收到可靠的消息是有機會推出 RTX 3070 Ti,將提供 16GB GDDR6 記憶體。
夢幻版的 3090
作為家族中的最高級版本, RTX 3090 又稱 BFGPU ,擁有最高級的規格如 36 Shaders TFLOPS 、 69 RT TFLOPS 、 285 Tensor TFLOPS 及 24GB G6X 記憶體,其定價也是史上最高的 US$1499 ,預計在 9 月 24 日登場。 RTX 3090 的性能屬於夢幻級的產品,擁有 RTX On with DLSS 8K 60fps 遊戲性能,令人期待。
各項配套新技術
為了配合新卡的推出, NVIDIA 也推出各項技術作為配套之用,以充份發揮新卡的性能。如 RTX IO 技術針對傳統經過 CPU 影響性能的問題。如以傳統技術需要 24 Core CPU ,但通過 Microsoft DirectStorage for Windows 技術可不經 CPU ,最多提供 100X Throughput 及 20X Lower CPU Utilitzation 。